#AI 生態
輝達AI產業生態的建構之道
在全球AI產業爆發式成長的浪潮中,輝達(NVIDIA)並非僅以晶片製造商的身份存在,而是憑藉全端技術佈局和生態協同策略,建構了一個覆蓋硬體、軟體、開發者、合作夥伴及行業場景的龐大AI產業生態系統。其生態建構邏輯以「核心技術為基、軟體平台為橋、夥伴協同為脈、開發者為核」,形成了自我強化的生態正循環,奠定了其在AI領域的領導地位。一、以頂尖硬體為生態基石,築牢性能護城河硬體是AI計算的核心載體,輝達透過持續迭代高性能GPU及配套硬體架構,為生態提供了不可替代的計算基礎,形成了生態建構的「硬支撐」。1. 迭代GPU核心架構,領跑AI計算效能輝達從早期的Tesla系列到現今的Hopper、Blackwell架構,始終聚焦在AI計算需求最佳化GPU設計。以Blackwell架構為例,其採用先進的晶片堆疊技術和全新的電晶體架構,在AI訓練和推理性能上實現數量級提升,單晶片算力較前代提升5倍以上,為大模型訓練、代理式AI等嚴苛工作負載提供了強大算力支撐。這種性能優勢使得全球絕大多數AI企業、科研機構在開展核心AI研發時,首選輝達GPU作為計算載體,形成了生態的「硬體入口壁壘」。2. 推出互連與整機解決方案,完善硬體生態閉環為解決大規模AI計算的算力群聚化需求,輝達打造了從晶片級互連到整機系統的完整硬體方案。其推出的NVLink技術作為核心互連架構,實現了GPU之間、GPU與CPU之間的高速資料傳輸,第五代NVLink為每個GPU提供1.8TB/s的總頻寬,較PCIe 5.0快14倍。2025年發表的NVLink Fusion晶片更實現了生態突破,允許合作夥伴基於該技術打造半定製AI晶片,MediaTek、Marvell、Alchip等企業已藉助該技術開發自訂AI計算系統,富士通、高通則將自訂CPU與輝達GPU通過NVLink整合,建構高性能工廠。此外,搭配ConnectX SuperNIC、Spectrum-X乙太網路交換機等網路硬體,輝達形成了「GPU+互連+網路+整機」的全端硬體解決方案,滿足從邊緣到資料中心的全場景計算需求。二、以軟體平台為生態紐帶,打通技術落地鏈路如果說硬體是生態的「骨架」,那麼軟體就是串聯生態的「血脈」。輝達透過建構CUDA為核心的軟體平台體系,降低了AI技術的使用門檻,實現了硬體能力的最大化釋放,也讓開發者和合作夥伴深度繫結於生態之中。1. CUDA:建構生態的「作業系統級」基石CUDA(統一計算裝置架構)作為輝達生態的核心,是連接GPU硬體與上層應用的關鍵介面。它提供了一套完整的程式設計模型、開發工具和函式庫,讓開發者無需深入掌握GPU硬體細節,即可透過C、C++等熟悉的語言開發AI應用。經過十餘年迭代,CUDA已形成龐大的工具鍊和庫體系,如針對深度學習的cuDNN、針對高效能計算的cuBLAS等,覆蓋從模型訓練到推理部署的全流程。這種「一次開發、多平台部署」的特性,使得全球數百萬開發者聚集於CUDA生態,形成了強大的技術慣性-開發者基於CUDA開發的應用越多,企業選擇輝達GPU的動力就越強,反之又推動更多開發者投入CUDA生態,形成正向循環。2. 全端AI框架與平台,降低產業落地門檻為推動AI技術向各行業滲透,輝達在CUDA基礎上建構了針對不同場景的上層軟件平台。在深度學習框架層面,輝達與TensorFlow、PyTorch等主流框架深度合作,提供優化的底層支援,確保框架在輝達GPU上實現最高性能;在行業應用層面,推出了專項平台,如自動駕駛領域的DRIVE、醫療健康領域的Clara、工業領域的Metropolis等,這些平台整合了經過最佳化的設備例如,Clara平台為醫療影像分析、藥物研發等場景提供了端到端解決方案,幫助醫療機構和藥廠大幅縮短研發周期。此外,輝達還推出了NGC(NVIDIA GPU Cloud)平台,提供預訓練模型、容器化工具和產業解決方案,開發者和企業可直接在NGC上取得資源,加速AI應用開發與部署。三、以夥伴協同為生態脈絡,建構產業共同體AI產業涉及晶片設計、硬體製造、軟件開發、產業應用等多個環節,輝達透過開放合作策略,與產業鏈上下游夥伴建構了「共生共榮」的生態共同體,實現了生態的規模擴張。1. 硬體夥伴:建構半定製生態,拓展硬體邊界輝達摒棄「閉門造車」的硬體策略,透過NVLink Fusion等技術向晶片設計和製造夥伴開放生態。MediaTek、Marvell、Alchip等企業借助NVLink Fusion技術打造自訂AI晶片,Synopsys、Cadence等提供設計IP與工具支援,形成了「輝達核心技術+夥伴定製開發」的硬體合作模式。這種模式既發揮了輝達在互連架構和GPU核心技術的優勢,也利用夥伴的專業能力滿足不同產業的定製需求。例如,MediaTek結合自身在高速互連領域的優勢,與輝達合作開發下一代AI基礎設施,服務雲級AI需求;富士通則將其2奈米Arm架構CPU與輝達GPU透過NVLink整合,實現更高能效比的AI計算。同時,輝達與台積電、三星等晶圓製造企業深度合作,確保GPU晶片的產能供應,為生態擴張提供硬體保障。2. 雲端服務夥伴:實現算力普惠,擴大生態覆蓋為讓更多企業和開發者便捷獲取AI算力,輝達與亞馬遜AWS、微軟Azure、GoogleCloud、阿里雲等全球主流雲服務商合作,將GPU算力以雲端服務形式輸出。雲端服務商透過部署輝達GPU叢集,推出AI算力實例,如AWS的P3/P4實例、阿里雲的GN7實例等,開發者和中小企業無需投入巨資購買硬體,即可透過按需付費的方式使用高性能AI算力。這種「算力即服務」的模式極大地降低了AI技術的使用門檻,讓全球範圍內的使用者都能接入輝達生態,同時雲服務商的推廣也進一步擴大了輝達生態的影響力。此外,輝達也為雲端服務商提供客製化支援,如透過NVLink Fusion幫助雲端服務商建構可擴展的AI工廠,滿足大規模算力需求。3. 產業夥伴:深度場景繫結,推動生態價值落地輝達與各產業龍頭企業合作,將AI技術深度融入產業場景,實現生態價值的落地轉化。在自動駕駛領域,與特斯拉、小鵬、寶馬等車企合作,提供DRIVE平台和算力支援,推動自動駕駛技術研發與量產;在醫療領域,與梅奧診所、西門子醫療等合作,基於Clara平台開發醫療影像診斷系統和藥物研發工具;在工業領域,與寶馬集團、通用電氣等合作,利用自動化產品維修​​廠。這些合作不僅讓輝達AI技術在各行業實現落地,更透過產業夥伴的回饋優化技術與產品,使生態更貼合實際需求。4. 股權佈局:資本賦能生態協同的核心手段輝達的AI產業生態建構不僅依賴技術與業務合作,更透過精準的股權運作實現生態繫結與能力補全,形成「戰略投資繫結夥伴、收購整合核心技術」的雙層股權佈局邏輯,為AI產業佈局提供資本層面的堅實支撐。(1)上市公司戰略持股:鎖定關鍵場景與算力需求輝達對上市公司的持股以戰略性少量持股為主,核心目標是透過資本紐帶強化業務協同,確保GPU產品在關鍵AI場景的優先滲透,而非追求控制權。重點持股領域集中在AI雲運算、晶片設計、自動駕駛及生物醫藥等核心賽道。其中,對AI雲資料中心企業CoreWeave持股比例高達91.36%(投資金額約39.6億美元),使其成為輝達GPU算力的「超級客戶」,既鎖定了大規模算力需求,又藉助CoreWeave的市場擴張推動GPU銷售與技術迭代。對晶片架構巨頭Arm Holdings持股4.11%,則保障了輝達GPU與Arm架構的相容性,實現晶片設計生態的深度協同。在垂直場景中,對自動駕駛企業文遠知行(WeRide)持股0.32%,深化了在中國自動駕駛市場的佈局,同時保障Orin晶片的銷量與技術合作;對AI生物醫藥企業Recursion Pharmaceuticals持股0.9%,透過提供GPU算力換取醫療場景的AI應用程式經驗,完善Clara平台的行業適配能力。(2)非上市初創投資:前瞻佈局前沿AI技術針對AI領域的創新前沿,輝達透過投資非上市初創企業提前卡位關鍵技術,形成生態創新儲備。投資版圖涵蓋大模型、人形機器人、AI優化工具等前沿方向,典型標的包括OpenAI、Figure AI、Mistral AI等。對OpenAI的戰略投資使其鎖定了大模型訓練的核心算力需求,同時通過技術協作優化GPU在大模型訓練與推理中的性能;投資人形機器人企業Figure AI,探索AI與機械結合的創新場景,為未來自動化業務積累技術經驗。在歐洲市場,投資開源大模型公司Mistral AI與NLP服務商Cohere,推動GPU在海外推理與訓練場景的效能落地;對Lambda Labs等GPU雲運算服務商的投資,則拓展了GPU分銷管道,為中小企業接入輝達生態提供便利。這類投資以風險可控為原則,透過資本繫結獲取技術前瞻性資訊與生態協同機會,為輝達AI生態注入持續創新活力。(3)核心企業收購:掌控關鍵技術建構全端能力與策略投資不同,輝達的收購策略聚焦核心技術補全,透過全資收購將關鍵能力整合進自身生態,強化全端AI解決方案能力。收購標的均瞄準生態短板領域,形成「硬體-軟件-服務」的閉環整合。2019年收購高效能網路企業Mellanox,掌控了GPU叢集互聯的InfiniBand技術,大幅提升資料中心算力叢集的傳輸效率,降低系統部署複雜度;收購AI資源調度企業Run:ai後,將其技術整合進NVIDIA AIEnterpriseAIOmOmniD,提升邊緣GPU利用率;,則填補了邊緣裝置AI推理與模型自動化優化的短板,實現從資料中心到邊緣端的全鏈路AI能力覆蓋。這些收購並非單純的規模擴張,而是精準補強生態關鍵環節,鞏固「全端AI基礎設施提供者」的核心定位。四、以開發者為生態核心,培育創新活力源泉開發者是生態的創新主體,輝達透過建構完善的開發者培育體系,吸引、留存並賦能全球開發者,為生態注入持續的創新活力。1. 教育與培訓:降低入門門檻,擴大開發者基數輝達推出了NVIDIA深度學習學院(DLI),提供線上線下結合的AI培訓課程,內容涵蓋CUDA編程、深度學習模型開發、行業場景應用等,開發者可透過課程學習和認證獲取專業技能。此外,輝達與全球數千所大學和科學研究機構合作,捐贈GPU裝置、提供教學資源,將AI教育納入大學課程體系,培養新一代AI人才。例如,與清華大學、北京大學等合作建立AI實驗室,開展聯合科學研究和人才培養,從源頭擴大生態的開發者基數。2. 社區與賽事:建構交流平台,激發創新動力輝達建構了全球範圍內的開發者社區,如NVIDIA Developer Zone,開發者可在社區中交流技術、分享經驗、獲取官方支援。同時,輝達舉辦各類AI競賽,如NVIDIA GTC開發者大會上的創新大賽、針對自動駕駛的DRIVE Challenge等,為開發者提供展示創新成果的平台,並透過獎金、資源支援等激勵開發者基於輝達生態開展創新研發。這些賽事不僅激發了開發者的創新動力,更挖掘了大量優質的AI應用方案,部分方案已透過輝達生態實現商業化落地。五、生態建構的核心邏輯與啟示輝達AI產業生態的成功,核心在於建構了「硬體-軟體-開發者-夥伴」的全鏈路協同體系,形成了「績效領先→開發者聚集→應用豐富→夥伴加入→生態強化」的自我強化循環。其關鍵啟示在於:一是以核心技術為根基,透過硬體性能與軟體生態建構競爭壁壘;二是以開放合作為策略,透過賦能夥伴實現生態規模化擴張;三是以開發者為核心,透過培育創新主體注入持續活力。在AI產業競爭日益激烈的背景下,這種全端、開放式的生態建構模式,成為輝達維持領先地位的核心競爭力,也為其他科技企業建構產業生態提供了重要藉鑑。 (黃玉新—戰略思想家)
最新!AI大模型全鏈路生態技術深度研究報告!2025
我們正處在一個由人工智慧定義的偉大時代。大語言模型如同一場技術海嘯,以前所未有的力量,重塑著世界的每一個角落。程式碼的編寫方式、軟體的互動形態、企業的運作模式,乃至我們對"智能"本身的理解,都在被徹底顛覆和重構。這場變革的深度和廣度,遠超過去任何一次技術革命,它不僅改變著技術的邊界,更在重新定義人類與機器的關係,以及我們創造價值的根本方式。這種能力的平民化,正在釋放全人類巨大的創造潛能。然而,另一方面,技術堆疊的爆炸式增長、知識的快速迭代,也讓我們每個人都深陷於"生怕錯過"(FOMO)的焦慮之中。本文可以能夠幫助您看清全域、理解深度、預見未來的專業報告。在這份白皮書中,我們作為您的行業分析師,系統性地梳理了從全球技術趨勢到中國本土實踐,從底層算力基礎設施到上層應用落地,從核心技術堆疊到開發者生態的全景畫面。第一章:全球AI大模型發展現狀與趨勢進入2025年,人工智慧(AI)的發展浪潮以前所未有的速度和深度重塑著全球科技格局與產業生態。本章節將立足於2024年6月至2025年9月的最新動態,從全球市場概覽、中美技術路線分化和關鍵技術突破三個維度,深度剖析AI大模型發展的宏觀現狀與未來趨勢,為中國的AI開發者和行業從業者提供一幅清晰、權威且具前瞻性的全景圖。1.1 全球AI大模型市場概覽1.1.1 市場規模與增長預測:邁向兆美元的確定性兆美元賽道前景明朗根據國際資料公司(IDC)在2025年9月發佈的最新《全球人工智慧支出指南》,2024年全球在AI領域的IT總投資規模(包括軟體、硬體和服務)已達到3,159億美元。報告以極為樂觀的預期指出,這一數字將在2029年增至12,619億美元,五年復合年增長率(CAGR)高達31.9%。這一預測標誌著AI正從一個前沿技術領域,穩步成長為驅動全球數字經濟的核心引擎,一個兆美元級的龐大產業賽道已然形成。各大研究機構的預測也印證了這一趨勢,儘管由於統計口徑和預測模型的不同,具體數值存在差異,但對市場將維持超高速增長的判斷高度一致。這種共識本身就構成了市場信心的重要來源。表1-1 不同機構對全球AI市場規模的預測中國市場的戰略地位與增長潛力在全球AI版圖的擴張中,中國市場的角色日益凸顯,成為推動全球增長的關鍵力量。根據中國資訊通訊研究院(CAICT)的資料,截至2025年9月,中國AI核心產業規模已突破9000億元人民幣,約佔全球核心產業規模的10%,相關企業數量超過5300家。IDC預測,到2029年,中國在AI領域的總投資規模將達到1,114億美元,五年複合增長率為25.7%,增速持續領先全球主要經濟體。中國市場的獨特優勢在於其龐大的使用者基數、豐富的應用場景和強大的政策支援:區域發展格局:多極化趨勢顯現這種多極化的發展趨勢,使得全球AI生態更加豐富和多元,也為不同地區的開發者和企業帶來了新的合作與競爭機會。1.1.2 技術迭代加速:從"能力"到"可用性"的進化如果說市場規模的增長是AI發展的"量"的積累,那麼技術性能的迭代則是"質"的飛躍,是驅動整個生態發展的根本動力。2025年,AI大模型的技術迭代呈現出明顯的加速態勢,其核心特徵是從單純追求基準測試分數的能力(Capability)提升,轉向更加注重模型在真實世界中的可靠性、安全性和實用性的"可用性"(Usability)進化。這一轉變的標誌性事件便是OpenAI於2025年8月7日正式發佈的GPT-5模型。GPT-5的"智能湧現":重新定義性能天花板GPT-5的官方發佈資料更為具體地展示了這種飛躍。這些基準測試的設計,旨在評估模型在真實世界中解決複雜問題的能力,而非簡單的模式匹配:表1-2 GPT-5與GPT-4在部分關鍵基準上的性能對比從"能力"到"可用性"的進化:更可靠的AI儘管在基準測試上的"屠榜"令人印象深刻,但2025年技術迭代更核心的趨勢,是各大模型廠商將研發重點從單純提升理論性能,轉向解決實際應用中的核心痛點。OpenAI在發佈GPT-5時就反覆強調,其在"減少幻覺、提升指令遵循能力、減少阿諛奉承"等實用性方面取得了重大進展:這種從"能力"到"可用性"的進化,預示看大模型正從一個充滿驚喜但時常犯錯的"天才少年",向一個知識淵博、邏輯嚴謹、態度誠懇的"專家助手"轉變。這為大模型在各行各業的規模化、關鍵性業務中的落地應用,掃清了最核心的障礙,也為開發者基於大模型建構可靠、可信的商業應用提供了堅實的基礎。1.1.3 投資熱潮回歸與結構變遷趨勢一:AI Agent(智能體)成為最大風口如果說大模型是AI的"大腦",那麼AI Agent就是連接這個"大腦"與數字世界乃至物理世界的"手和腳"。具備自主理解、規劃、記憶和工具呼叫能力的AI Agent,被普遍認為是將大模型的潛力從"對話方塊"中徹底釋放出來、實現其全部價值的關鍵。因此,AI Agent在2025年當之無愧地成為了全球資本追逐的最大風口。市場研究機構MarketsandMarkets在其最新報告中預測,全球AI Agent市場規模將從2024年的5.1億美元,以高達44.8%的年複合增長率,增長到2030年的47.1億美元。資本的流向準確地印證了這一趨勢。2025年的明星融資案例幾乎都與Agent相關:資本之所以狂熱追捧AI Agent,是因為它看到了一個清晰的商業模式演進路徑:從提供基礎能力的PaaS(平台即服務),走向提供完整解決方案的SaaS(軟體即服務),最終實現按效果付費的"結果即服務"(Outcome-as-a-Service)。趨勢二:垂直行業應用與"模型+應用"一體化隨著通用大模型能力的普及,單純提供基礎模型API的商業模式面臨著日益激烈的同質化競爭和價格壓力。因此,資本和創業者的注意力開始轉向能夠解決特定行業痛點的垂直應用。這些應用通常基於通用大模型進行深度微調和最佳化,並與行業知識、業務流程深度繫結,從而建立起更高的競爭壁壘和客戶價值。垂直行業解決方案:這些應用具有更清晰的商業模式和更高的客戶付費意願。"模型+應用"一體化策略  :在國內市場,一種"模型+應用"一體化的發展模式尤為突出。以智譜GLM、月之暗面、MiniMax等為代表的AI獨角獸,從創立之初就堅持自己研發底層大模型,並直接面向C端或B端使用者推出創新的應用產品。趨勢三:AI基礎設施(AI Infra)與工具鏈持續火熱隨著模型規模的指數級擴大和應用的多樣化,對高效、低成本、易於使用的AI基礎設施和工具鏈的需求日益增長。AI Infra是支撐上層模型和應用創新的"底座",其重要性愈發凸顯,成為投資的另一大熱點。這個領域的投資可以細分為幾個層面:核心硬體與算力:除了對NVIDIA、AMD等晶片巨頭的持續追捧,資本也開始關注AI晶片領域的初創公司,特別是那些致力於開發新型架構(如存內計算、光子計算、模擬計算)或針對特定工作負載(如稀疏計算、圖神經網路)進行最佳化的公司。此外,隨著國產化替代處理程序的加速,與華為升騰、寒武紀等國產異構算力適配的軟體和工具鏈,在中國市場獲得了巨大的投資機會。模型最佳化與部署平台:提供模型量化、剪枝、蒸餾等最佳化技術,以及Serverless推理服務的公司備受青睞。這些平台的核心價值在於幫助企業以更低的成本、更快的速度部署和運行AI模型。例如,國外的OctoML、Together AI,國內的無問芯穹、中科算網、矽基流動等公司,通過提供跨雲廠商、跨硬體的AI模型部署和加速平台,可以幫助企業將AI推理成本大幅度的降低,極大地推動了AI應用的普及。資料與MLOps平台:高品質的資料是訓練高性能模型的基礎。因此,提供資料標註、資料清洗、資料合成、資料管理服務的公司(如Scale AI, Snorkel AI)持續獲得高額投資。同時,覆蓋AI開發全生命周期的MLOps(機器學習維運)平台,如Weights & Biases, Comet, Arize AI、國產開源Cube-studio等,也成為企業AI團隊不可或缺的工具。它們提供了從實驗跟蹤、模型版本管理到生產環境監控和性能最佳化的全套解決方案,將AI開發從"手工作坊"模式帶向了標準化的"工業化生產"模式,其市場滲透率在2025年大幅提升。企業AI投資的全面復甦這一模式的戰略優勢在於:這種策略的本質,是在AI時代延續美國在傳統軟體和網際網路時代的平台霸權,通過掌控最核心的智能生產資料,在全球AI產業鏈中佔據高附加值的頂端。中國的"開源浪潮"與生態突圍戰略與美國的策略形成鮮明對比,中國幾乎所有頭部的AI廠商和研究機構,包括阿里巴巴(通義千問Qwen系列)、DeepSeek(深度求索)、智譜AI(GLM系列)、零一萬物(Yi系列)、月之暗面(Kimi系列)、騰訊(混元系列)、華為(盤古系列)、元象(Llama中文社區版)等,都在2025年堅定地擁抱了"開放權重"(Open Weights)的開源策略。它們不僅發佈詳細的技術報告,更將訓練好的、性能強大的模型權重向學術界和產業界開放,允許全球的開發者和企業免費下載、在本地部署、進行二次開發和微調。這一策略的背後,是基於中國當前市場環境、技術發展階段和國際競爭格局的深思熟慮,是一場旨在實現"非對稱優勢"和"換道超車"的戰略抉擇:這場開源與閉源的路線之爭,本質上是兩種不同發展哲學和商業模式的博弈。閉源生態追求的是深度、控制和利潤最大化,而開源生態追求的是廣度、活力和生態共榮。短期內,最頂尖的閉源模型在通用能力上仍可能保持微弱的領先;但從長遠看,開源生態的快速迭代、群體智慧和更廣泛的應用滲透,可能催生出更具韌性和多樣性的創新,最終在整體上形成更強的產業競爭力。對於開發者而言,開源意味著更高的自主性、更低的成本和更靈活的定製空間,但也需要更強的技術能力來駕馭和最佳化模型,這對中國的AI人才培養提出了新的要求。1.2.2 開發者生態對比:全球化社區VS本土化平台開發者社區是AI生態的靈魂和活水之源,是技術傳播、知識分享、項目協作和人才成長的核心載體。2025年,中美兩國也形成了風格迥異但同樣充滿活力的開發者生態。美國主導的全球化社區,如GitHub和Hugging Face,為全球AI發展設定了基礎框架和協作模式;而中國崛起的本土化平台,如魔搭(ModelScope)、升思(MindSpore)社區,則在服務本土開發者、適配國產軟硬體方面展現出獨特的價值和強大的生命力。美國主導的全球化社區:以GitHub和Hugging Face為核心美國在AI開發者生態中的領導地位,主要通過兩個全球性的超級平台來體現:GitHub:AI世界的"程式碼基石":作為全球最大的程式碼託管平台,GitHub是整個AI乃至整個軟體世界的基礎設施。幾乎所有重要的AI框架(如Google的TensorFlow、Meta的PyTorch)、核心工具庫(如Hugging Face的Transformers、LangChain)、前沿演算法實現和學術研究程式碼都在此首發和迭代。其生態特點是:基礎性與前沿性:這裡是AI領域最底層、最核心的軟體和演算法創新的主要陣地。全球化協作:全球數千萬開發者在此共同協作,遵循著一套成熟的開源協作規範(如Pull Request、Issue跟蹤),形成了強大的網路效應和集體智慧。研究導向:大量的學術論文都會附上GitHub程式碼連結,使其成為連接學術研究與產業實踐的最重要的橋樑。對於全球開發者而言,GitHub是學習最新技術、追蹤前沿動態、參與頂級開放原始碼專案不可或缺的平台。Hugging Face:AI民主化的"模型廣場":如果說GitHub是AI的"程式碼庫",那麼Hugging Face就是AI的"模型庫"、"資料集市"和"應用展示空間"。它極大地降低了開發者獲取、使用、訓練和分享模型的門檻,是近年來推動AI技術民主化的最大功臣。其社區文化開放、活躍,以分享和協作為主導,核心價值在於:海量模型與資料集:託管了超過100萬個預訓練模型和20萬個資料集,覆蓋了自然語言處理、電腦視覺、音訊處理等幾乎所有領域。標準化工具鏈:其Transformers庫已成為載入和使用預訓練模型的事實標準,Diffusers庫統一了文生圖模型的介面,極大地簡化了開發流程。線上演示與部署:通過Spaces功能,開發者可以輕鬆地為自己的模型建構一個可互動的線上演示應用(Demo),並與全球使用者分享。Hugging Face還提供推理端點(Inference Endpoints)服務,簡化了模型的生產部署。中國崛起的本土化平台:以魔搭(ModelScope)和升思(MindSpore)為代表。面對美國主導的全球社區,中國AI產業也積極建構符合自身國情和開發者需求的本土化平台,其中最具代表性的是阿里巴巴的"魔搭"和華為的"升思":魔搭(ModelScope):中國開發者的"模型超級市場":由阿里巴巴達摩院牽頭推出的ModelScope社區,在短短幾年內迅速成長為中國規模最大、最活躍的AI模型社區。其核心定位是"模型即服務",致力於為中國開發者提供一站式的模型發現、體驗、開發和部署服務。相比Hugging Face,魔搭社區的特點更加"親民",更側重於模型的"應用性"和"易用性":國產模型大本營:社區不僅彙集了通義千問系列等阿里自家的王牌模型,也吸引了幾乎所有國內主流AI公司(如智譜AI、零一萬物、百川智能等)和頂尖研究機構的模型入駐,形成了國內最全的中文模型庫。極致的中文友好體驗:平台提供全中文的介面、詳盡的中文文件、豐富的入門教學和視訊講解,極大地降低了國內初級開發者的學習曲線。完善的工具鏈與雲服務整合:魔搭社區提供了從模型線上體驗(Playground)、程式碼線上運行(Notebook)到一鍵部署到阿里雲PAI平台的完整工具鏈。開發者可以在一個平台上完成從模型選型到應用上線的全過程,實現了與雲端運算服務的無縫銜接。升思(MindSpore):國產算力的"靈魂引擎":由華為推出的升思社區,則是一個戰略意圖更加清晰的平台,其核心目標是為基於華為升騰(Ascend)AI硬體生態的開發提供全端式的軟體框架、模型庫和工具鏈。升思社區的最大特點是"軟硬協同",旨在通過框架、編譯器和模型的聯合最佳化,將升騰晶片的硬體性能發揮到極致,為開發者提供一個在國產算力上進行高效AI開發和部署的最優解。其生態價值在於:為國產算力"造魂":升思AI框架針對升騰硬體的架構特點(如達文西架構的矩陣計算單元)進行了深度最佳化,能夠最大化硬體利用率。建構自主可控的技術體系:在升思社區,從底層的AI框架(MindSpore)、AI編譯器(CANN),到上層的模型庫和開髮套件(MindKit),構成了一套完全自主可控的全端AI技術體系,這對於保障國家AI產業安全具有重要的戰略意義。表1-3 全球與中國主流AI開發者社區對比(2025年)總而言之,中美開發者生態呈現出互補與競爭並存的格局。GitHub和Hugging Face定義了全球AI開發的基礎設施和通用範式,而魔搭、升思等本土平台則在應用落地、服務本土開發者和建構自主算力生態方面,展現出強大的生命力和不可替代的價值。對於中國開發者而言,既要積極擁抱全球社區,站在巨人的肩膀上;也要充分利用本土平台的優勢,將先進技術與中國的市場需求和產業場景相結合,創造出真正的價值。1.2.3 技術特色對比:通用與垂直的殊途同歸中美技術路線的分化,最終體現在模型能力的技術特色和演進路徑上。2025年,這一差異愈發明顯:美國頭部模型在追求"通用人工智慧"(AGI)的道路上越走越遠,致力於打造一個無所不能的"超級大腦";而中國的AI大模型發展則呈現出更強的"實用主義"和"場景驅動"色彩,通過在垂直行業的深度耕耘,走出了一條"自下而上"、與實體經濟深度融合的特色路徑。儘管起點和路徑不同,但兩者都在以自己的方式,探索著通往更高等級人工智慧的未來,可謂"殊途同歸"。美國的技術路徑:追求通用能力的"自上而下"中國的技術路徑:場景驅動的"自下而上"相比之下,中國的AI大模型發展呈現出更強的"實用主義"和"場景驅動"色彩,走的是一條"自下而上"的道路。除了在通用能力上奮力追趕,中國廠商將大量資源投入到金融、醫療、製造、電商、教育等具體垂直行業的應用開發中,強調模型與產業知識、業務流程的深度融合。代表模型:阿里的通義千問、智譜GLM、百度的文心一言、騰訊的混元、華為的盤古等。核心理念:AI的價值最終體現在解決真實世界的問題上。從具體的應用場景出發,利用場景中產生的真實資料和反饋,來倒逼和牽引底層模型能力的迭代和最佳化。生態打法:將大模型與其在各自優勢領域的產業生態深度繫結。例如,阿里的通義千問與其電商和辦公生態(釘釘)深度融合;百度的文心大模型與其在自動駕駛、工業質檢等領域的積累相結合,形成了獨特的"雲智一體"優勢。這種路徑的優勢在於商業模式更清晰,更容易在短期內創造可衡量的經濟價值,並且能夠建構起基於行業Know-how和專有資料的護城河。其挑戰在於如何避免應用過於"碎片化",並在深耕垂直領域的同時,保持對通用能力前沿的跟進。中國AI的垂直行業深度賦能案例(2025年)中國的"自下而上"策略,在多個關乎國計民生的關鍵垂直行業取得了顯著成效,展現出AI技術與實體經濟深度融合的巨大潛力。這些案例不僅是技術的展示,更是商業價值的證明。1. 智能製造:從"中國製造"到"中國智造"2. 智慧金融:安全、效率與普惠的革命3. 普惠醫療:緩解資源不均,提升診療水平4. 自動駕駛:大模型驅動的"端到端"革命中國複雜多變的交通路況和海量的駕駛資料,為自動駕駛技術的快速迭代提供了全球獨一無二的"訓練場"。2025年,中國自動駕駛技術路線正在經歷一場由大模型驅動的範式革命。這些來自不同行業的案例充分說明,中國AI產業正通過與實體經濟的深度融合,在解決國計民生和產業升級的重大問題中尋找應用場景、創造真實價值,並反過來用真實世界的複雜資料和反饋來驅動AI技術的持續迭代。這條場景驅動、資料反哺的路徑,形成了一條極具韌性和生命力的、具有中國特色的技術發展道路。1.3 2025年關鍵技術突破:協同演進,邁向通用智能在市場需求、產業應用和全球競爭的三重驅動下,2025年的AI大模型技術在多個方向上取得了關鍵性、非線性的突破。這些突破不再是單一維度的線性提升,例如單純的參數增長或在某個孤立任務上的性能最佳化,而是多個技術方向協同演進、相互促進,共同推動AI系統向更通用、更自主、更高效、更可靠的終極目標邁進。多模態能力從可選變為標配,混合專家(MoE)架構的普及解決了規模與成本的矛盾,基於強化學習的深度推理能力讓模型學會了"思考",而AI Agent(智能體)的商業化爆發則將這一切能力整合,使其成為能夠自主執行任務的數字員工。這四大趨勢共同定義了2025年大模型技術的新高度,並深刻地影響著未來十年AI技術和應用的發展軌跡。1.3.1 多模態成為標配:從"拼接"到"原生"的全感官智能如果說2024年是多模態大模型的"萌芽之年",其能力主要體現在圖文理解上,那麼2025年則是其"普及與深化之年"。單一的文字處理能力已不再是衡量一個模型先進與否的標準,同時理解和生成文字、圖像、音訊、視訊、3D模型、感測器訊號等多種模態資訊,並實現它們之間的無縫轉換和融合推理,成為了頂級模型的入門門檻。這一轉變的意義,不亞於從黑白電視到彩色電視的飛躍,它標誌著AI正在從一個只能"閱讀"的"書生",進化為一個能聽、能看、能說、能感受的"全感官"智能體。技術演進:從"拼接"到"原生"的架構革命2025年多模態技術的核心突破,在於架構層面實現了從"拼接式多模態"(Stitched Multimodality)向"原生多模態"(Native Multimodality)的根本性演進。理解這一轉變,是理解當前多模態技術水平的關鍵。舊範式:拼接式多模態早期的多模態模型,如CLIP和DALL-E的早期版本,通常採用多個獨立的、針對特定模態的編碼器(Encoder)。例如,使用一個預訓練好的視覺模型(如ViT)來編碼圖像,使用一個語言模型(如BERT)來編碼文字,然後通過一個輕量級的"連接層"(Projection Layer)將它們的特徵向量對應到同一個語義空間進行對齊和融合。這種方式雖然在當時取得了不錯的效果,但存在明顯的技術缺陷:資訊瓶頸(Information Bottleneck):不同模態的資訊在各自的編碼器中被高度壓縮,在"連接層"進行融合時已經丟失了大量原始的細節資訊,導致跨模態理解不夠精細和深入。互動膚淺(Shallow Interaction):模型只能進行表層的、全域的對齊(例如判斷"這張圖片和這段文字描述的是同一個物體"),但難以理解模態內部和模態之間的複雜、局部關係(例如,無法精準理解"圖片左上角的男人正在對右下角的狗低聲說話"這一包含空間、行為和聲音資訊的複雜場景)。擴展性差(Poor Scalability):每增加一種新的模態(如視訊、音訊),就需要設計一個新的編碼器和相應的連接方式,整個架構會變得越來越臃腫,訓練也變得異常複雜。新範式:原生多模態以Google Gemini系列、OpenAI GPT-5以及國內的通義千問Qwen2.5-VL為代表的新一代模型,在架構層面就實現了根本性的統一。它們採用統一的Transformer架構和共享的向量空間來處理所有模態的資料。其核心思想是"萬物皆可Token化":統一Token化:無論是文字、圖像、聲音還是視訊,都會被一個統一的"分詞器"(Tokenizer)或多個協同工作的分詞器,轉換成一系列離散的"語義令牌"(Semantic Tokens)。例如,圖像被切分成小塊(Patches),每個圖像塊被編碼成一個Token;音訊波形被切分成短時幀,也被編碼成Token。這些來自不同感官的Token,與文字的Token一起,被送入同一個模型中,擁有了統一的"語言"。端到端深度融合訓練:在統一的Transformer架構中,來自不同模態的Token通過自注意力機制(Self-Attention)進行無差別的、深度的互動和融合。模型在包含海量多模態資料的預訓練過程中,端到端地(End-to-End)學習所有模態的內在規律以及它們之間錯綜複雜的對應關係。模型不再是先理解圖像,再理解文字,而是在同一個思考過程中,同時處理和關聯所有的感官資訊。這種原生多模態架構帶來了幾個革命性的優勢:更強的跨模態推理能力:模型能夠真正理解不同模態資訊之間的深層邏輯和因果關聯。例如,它不僅能識別出一張圖片裡有一隻貓和一張桌子,還能根據貓的姿勢、眼神以及桌上的食物,推理出"這隻貓可能準備跳上桌子偷吃東西",甚至能結合背景聲音(如遠處傳來的主人腳步聲),進一步推理出"這隻貓的行為具有風險,可能會被即將到來的主人發現"。這種能力是實現高級場景理解和自主決策的基礎。更靈活的模態轉換與生成(Any-to-Any):由於所有模態在底層被統一表示,模型可以輕鬆地實現任意模態到任意模態的轉換和生成。例如:輸入一段複雜的文字描述("一個賽博朋克風格的雨夜城市,霓虹燈在濕漉的街道上投下斑斕的倒影,一個穿著風衣的偵探在追逐一個一閃而過的神秘黑影"),可以直接生成一段包含相應場景、動態效果、環境音效和緊張旁白的短影片。輸入一段哼唱的旋律,可以生成完整的樂譜、多種樂器編配的成品音樂,甚至配上AI生成的虛擬歌手演唱。輸入一段產品設計草圖,可以直接生成可用於3D列印的CAD模型。更低的開發與部署成本:統一的架構意味著更少的模型元件和更簡化的訓練與部署流程。開發者不再需要為不同的多模態任務去尋找和組合不同的模型,一個強大的原生多模態模型即可應對多種應用場景,這極大地降低了多模態應用的開發和維護成本。行業影響與未來展望多模態能力的普及,正在對各行各業產生顛覆性的影響,其深度和廣度遠超純文字AI:內容創作與傳媒:AIGC正在從單一的文案、圖片生成,走向完整的視訊、電影、遊戲內容的自動化和半自動化生產。這將極大地改變媒體、廣告和娛樂行業的內容生產方式,催生"AI導演"、"AI編劇"、"AI遊戲關卡設計師"等新職業,同時也對內容版權、真實性驗證提出了新的挑戰。教育與培訓:AI可以根據學生的學習進度和薄弱環節,動態生成包含圖示、動畫、語音講解和互動實驗的個性化多媒體課件,實現真正的因材施教。未來的課本將是"活"的、可互動的、全方位調動學生感官的沉浸式學習體驗。工業與醫療:在工業領域,多模態AI能結合裝置運行的聲音、振動頻率、紅外熱成像和高畫質視覺圖像,實現比任何單一感測器都更準確的故障預警和壽命預測。在醫療領域,它能同時分析CT影像、病理報告、基因序列和患者的口述病史,為醫生提供更全面、更準確的診斷建議,成為"超級診斷專家"。人機互動革命:未來的互動介面將不再侷限於鍵盤、滑鼠和螢幕。使用者可以通過最自然的語音、手勢、眼神甚至腦電波與AI進行互動,AI也能通過分析使用者的表情、語氣和生理訊號來理解其真實意圖和情感狀態,實現更具共情能力和預見性的溝通。這將為AR/VR眼鏡、智能座艙、具身智慧型手機器人、可穿戴裝置等領域帶來革命性的體驗提升。科學發現:多模態AI能夠理解科學論文中的圖表、公式和文字,觀看實驗視訊,分析實驗資料,幫助科學家更快地吸收知識、發現不同領域研究之間的關聯,並提出新的科學假設。2025年,多模態已經不再是一個"加分項",而是基礎大模型不可或缺的核心能力。它將AI從一個強大的語言工具,提升到了一個初級的"世界模擬器"和"全能感知體",為通往更高等級的人工智慧鋪平了道路。1.3.2 MoE架構普及:兆參數的"經濟適用"之道隨著模型能力的提升,參數規模的增長似乎是通往更強智能的必經之路。然而,訓練和推理一個數兆參數的稠密模型(Dense Model)——即在每次計算中所有參數都參與運算——所帶來的巨大算力成本、記憶體開銷和能源消耗,是任何一家公司都難以承受的。這形成了一個阻礙AI發展的"不可能三角":即無法同時實現頂尖的性能、巨大的規模和可控的成本。為了打破這一桎梏,混合專家模型(Mixture of Experts, MoE)架構在經歷了多年的學術探索後,於2025年得到了大規模的工業化普及,成為建構前沿大模型的首選架構。它為通往兆乃至十兆參數的道路,提供了一條經濟適用的、可行的工程路徑。技術原理:稀疏啟動的"集體智慧"MoE的核心思想,源於一個簡單的分工理念:與其讓一個"通才"吃力地解決所有問題,不如培養一群各有所長的"專家",在遇到問題時,聰明地選擇並啟動最相關的幾位專家來協同解決。在模型架構中,這意味著將一個龐大的前饋神經網路(FFN)層,取代為兩個核心元件:多個專家子網路(Experts):這些是相對獨立的、規模較小的神經網路(通常是FFN)。每個專家在訓練過程中會逐漸學習並擅長處理某一類特定的輸入模式或知識領域(例如,一個專家可能擅長處理與程式設計相關的Token,另一個則擅長處理與生物化學相關的Token)。一個"門控網路"(Gating Network):這是一個輕量級的路由網路。對於每一個輸入的Token,門控網路會快速計算一個權重分佈,決定應該將這個Token傳送給那些專家進行處理。通常,它會選擇權重最高的Top-k個專家(k通常為1、2或4),然後將這些被啟動的專家的輸出結果,根據門控網路的權重進行加權融合,作為最終的輸出。通過這種方式,MoE模型實現了所謂的"稀疏啟動"(Sparse Activation)。儘管模型的總參數量可以做得非常巨大(例如,通過堆疊數百個專家網路達到兆等級),但在處理任何一個Token時,實際參與計算的只是被門控網路選中的少數幾個專家,即"啟動參數量"遠小於"總參數量"。這就帶來了巨大的優勢:在保持巨大模型容量(代表其潛在知識的豐富程度)的同時,大幅降低了單次推理的計算量(FLOPS),從而實現了性能與效率的解耦。表1-4 採用MoE架構的部分代表性模型(2025年)技術深化:從"粗放路由"到"智能調度"MoE架構在2025年的普及,不僅僅是應用範圍的擴大,更伴隨著一系列技術深化和創新,解決了早期MoE面臨的訓練不穩定、負載不均衡、推理延遲高等諸多挑戰。智能路由演算法:早期的MoE模型在分配任務給"專家"時,採用簡單的Top-k門控機制,容易出現"贏家通吃"的現象——即少數專家被過度使用,而大多數專家長期處於閒置狀態。這不僅導致模型容量的巨大浪費,也使得訓練過程非常不穩定。2025年的先進MoE模型,如DeepSeek-V2和智譜GLM-4,採用了更複雜的路由演算法:負載平衡損失(Load Balancing Loss):在訓練的目標函數中加入一個額外的損失項,專門用於懲罰不均衡的專家分配。這會激勵門控網路在選擇專家的同時,也考慮讓所有專家都得到"雨露均霑"的訓練,從而最大化模型容量的利用率。噪聲路由(Noisy Routing):在門控網路的輸出上增加隨機噪聲,以增加路由的探索性,避免模型過早地鎖定在少數幾個專家上,有助於提升模型的泛化能力。專家能力建模:一些更前沿的研究開始讓門控網路不僅考慮輸入與專家的"相關性",還動態地建模每個專家的"能力"和"專長",從而實現更準確的"因材施教"式路由。專家融合與協作:新的MoE架構不再將專家視為完全獨立的、互不通訊的單元。一些模型引入了"共享專家"或"層級化專家"結構。例如,在模型的底層,可能設定一些所有任務都會用到的通用基礎知識專家(如負責基礎語法和語義理解),而在高層,則設定更專業的"領域專家"(如"法律專家"、"程式碼專家"、"數學專家")。還有一些模型則在專家之間引入了橫向連接或額外的注意力機制,允許它們在計算過程中相互交流和協作,共同解決需要跨領域知識的複雜問題。這使得MoE模型不再是簡單的"專家混合",而是真正的"專家會診"。稀疏訓練與推理最佳化:MoE模型的稀疏啟動特性,也催生了一整套專門的分佈式訓練和推理最佳化技術,這是軟體和硬體協同設計的典範。訓練層面:由於MoE模型的總參數量巨大,無法裝入單個計算裝置,因此必須進行平行訓練。業界發展出了"專家平行"(Expert Parallelism)策略,即將不同的專家分佈在不同的GPU上,同時結合"資料平行"(Data Parallelism)來處理輸入資料。這需要高效的All-to-All通訊來完成Token在不同GPU之間的路由和分發,對網路頻寬提出了極高要求。推理層面:MoE的推理最佳化是2025年的一大技術熱點。VLLM、TensorRT-LLM、S-LoRA等推理引擎都針對MoE進行了深度最佳化。其核心挑戰在於,如何高效地處理動態的、不可預測的專家啟動模式,並最大限度地減少從海量總參數中載入專家權重到計算核心所帶來的延遲。關鍵技術包括:專家權重快取(Expert Weights Caching):將最常被啟動的專家權重快取在GPU的快取記憶體(SRAM)或HBM中。投機性載入(Speculative Loading):根據歷史模式或門控網路的初步計算,提前預測那些專家可能被啟動,並預先將其權重從主存載入到GPU記憶體中。計算與通訊重疊:通過精巧的調度,將Token的路由通訊、專家權重的載入與實際的計算過程進行流水線式的重疊,隱藏延遲。產業影響:重塑AI算力版圖MoE架構的普及,正在深刻地改變AI硬體和雲端運算產業的發展方向和競爭格局:對AI硬體提出新要求:MoE架構的"稀疏計算,密集儲存"特性,對AI晶片的設計理念提出了新的要求。過去,AI晶片設計更注重峰值計算能力(FLOPS)。而現在,記憶體頻寬和容量的重要性被提到了前所未有的高度。因為MoE模型在推理時需要從海量的總參數中快速載入被啟動的專家權重,"記憶體牆"(Memory Wall)成為了比"計算牆"(Compute Wall)更主要的瓶頸。這直接推動了高頻寬記憶體(HBM)技術的加速迭代(從HBM3到HBM3e再到HBM4),並使得擁有更大HBM容量的AI晶片(如NVIDIA的B200擁有192GB HBM3e,AMD的MI300X擁有192GB HBM3)在市場上更具競爭力。此外,MoE模型在多節點部署時,專家間的通訊需求也對伺服器的片間/節點間互聯技術(如NVIDIA的NVLink、CXL)提出了更高要求。可以說,軟體層面的架構創新正在反向定義硬體的發展方向。對雲端運算廠商的挑戰與機遇:對於AWS、Azure、GCP以及中國的阿里雲、騰訊雲等雲廠商而言,MoE模型的流行帶來了新的挑戰和機遇。挑戰在於,如何為客戶提供能夠高效運行超大規模MoE模型的、具有高頻寬網路和海量記憶體的計算叢集,這對資料中心的基礎設施提出了極高的要求。機遇在於,雲廠商可以憑藉其在基礎設施、系統最佳化和平台軟體上的綜合優勢,為客戶提供比自建資料中心更具性價比的MoE模型訓練和推理服務,這成為雲服務商新的增長點。例如,Google就憑藉其在TPU上的優勢,宣稱其雲平台是運行超大MoE模型的最佳選擇。而中國的雲廠商則在適配國產算力、為國產MoE模型提供最佳化服務方面,構築自己的獨特優勢。總而言之,MoE架構是2025年大模型技術領域最核心的使能技術之一。它巧妙地繞過了暴力計算的物理極限,為建構更大、更強的AI模型提供了一條可持續的工程路徑,使得"兆參數"不再是少數巨頭的專利,而是成為了更多創新者可以企及的目標,極大地推動了AI技術的普及和應用深化。1.3.3 強化學習增強推理:從"模仿"到"創造"的認知飛躍如果說海量資料的預訓練賦予了AI大模型廣博的"知識",使其成為一個無所不知的"資訊檢索和模式匹配"大師,那麼在2025年取得關鍵突破的強化學習(RL)應用,則正在教會模型如何運用這些知識進行深度的"思考",實現從"模仿"到"創造"的認知飛躍。這一轉變,標誌著AI正從一個被動的"知識容器"向一個主動的"問題求解器"和"思想引擎"邁進,是通往通用人工智慧(AGI)道路上最關鍵、最深刻的一步。範式轉變:從RLHF到"過程-結果"雙重監督與自我對弈2025年,強化學習在大模型領域的應用,實現了從單一的、旨在"對齊人類偏好"的RLHF,到旨在"提升內在推理能力"的更複雜範式的演進。這個新範式結合了過程監督、結果監督和自我對弈,為模型打開了"無監督學習"和"自我進化"的大門。舊範式:RLHF(Reinforcement Learning from Human Feedback)的侷限:RLHF在過去幾年中對於提升模型的安全性、有用性和遵循指令能力方面取得了巨大成功。其核心是讓模型學習模仿人類的偏好。通過讓人類對模型的不同輸出進行排序(例如,那個回答更禮貌、更安全),訓練一個"獎勵模型"(Reward Model),然後用這個獎勵模型作為訊號,通過強化學習演算法(如PPO)來微調大模型。然而,RLHF的本質是"外在的"和"模仿性的",它教會了模型"說什麼樣的話更討人喜歡",但並沒有真正教會模型"如何獨立地思考並得出正確的結論"。其天花板受限於人類標註者的認知水平和偏好,模型很難通過RLHF學會創造出超越人類已有知識的、新穎的解決方案,尤其是在數學、科學、程式設計等需要嚴謹邏輯推理的領域。新範式:結合過程與結果監督的深度推理(Process & Outcome-Supervised RL)為了讓模型真正學會"思考",2025年的前沿技術將監督訊號從模糊的"偏好"轉向了更明確的"過程"和"結果":結果監督(Outcome Supervision):對於那些有明確正確答案的問題(如數學題、程式碼編譯結果),模型可以獲得一個清晰、客觀的獎勵訊號。如果答案正確,則獲得正獎勵;如果錯誤,則獲得負獎勵。這比人類的主觀偏好要可靠得多。過程監督(Process Supervision):然而,僅僅獎勵最終結果是不夠的。一個複雜的推理任務包含很多步驟,模型可能因為某一步的"運氣好"(例如,兩個錯誤相互抵消)而得到正確答案,但這並不意味著它掌握了正確的解題方法。過程監督的核心,是讓人類(或更強的AI)去審查和獎勵模型生成的"思維鏈"(Chain of Thought)中的每一步。如果某一步推理是正確的、有邏輯的,就給予獎勵。這種對"思考過程"的監督,能夠更有效地引導模型學習到可泛化的、魯棒的推理能力。OpenAI提出的"過程獎勵模型"(Process-based Reward Models, PRM)就是這一思想的典型實現。通過結合這兩種監督方式,模型不僅知道要達到什麼"目標",也學會了"如何一步步地、正確地達到目標"。當面對一個複雜問題時(如多步驟的數學題、複雜的程式碼偵錯),模型不再是直接"猜"一個答案,而是會先生成一個詳細的思考鏈或解題計畫,然後逐步執行和修正,最終得出答案。這個過程類似於人類的深思熟慮,極大地提高了模型在複雜任務上的精準性和可靠性。OpenAI在GPT-5發佈時重點介紹的"擴展推理能力"(extended reasoning)和"思考模式"(thinking mode),正是這一趨勢的體現。前沿探索:自我對弈強化學習(Self-Play RL)更進一步,借鑑DeepMind在AlphaGo上取得的巨大成功,AI研究者們正在將"自我對弈"的思想引入到大模型的推理訓練中。其核心思想是,讓模型自己為自己創造學習環境和目標,在沒有或極少有人類輸入的情況下進行自我博弈和提升。在解決一個複雜的數學問題時,模型可以同時扮演三個角色:出題者(Proposer):從一個基本概念出發,自己生成無數個難度遞增、形式各異的新問題。解題者(Solver):嘗試用多種不同的"思維鏈"或"思維樹"來探索這些問題的解法。驗證者(Verifier):通過邏輯一致性檢查、與已知公理比對、或將問題簡化後驗證答案等方式,自己判斷解法的正確與否,並對正確的解題路徑進行"自我獎勵"。通過數百萬次甚至數十億次這樣的自我對弈循環,模型能夠探索出人類從未想過的新穎解題技巧和策略,其能力不再受限於訓練資料中已有的人類知識。2024年9月12日,OpenAI發佈的O1推理模型被認為是這一方向的里程碑,其採用的"Self-play RL"範式,讓模型能夠通過自我對弈和探索,不斷髮現更優的解題策略。這標誌著AI正從一個知識的"消費者"和"整理者",轉變為一個知識的"發現者"和"創造者"。行業影響:重定義"專家級"任務由強化學習驅動的、可解釋、可驗證的深度推理能力,正在重定義許多過去被認為是人類頂尖專家專屬的"認知型"任務,其影響的深度和廣度將遠超之前的自動化浪潮:科學研究(AI for Science):AI已經開始在數學定理證明、蛋白質結構預測(如AlphaFold 3)、新材料發現、高能物理資料分析等領域扮演關鍵角色。過去,AI在科學領域的應用更多是作為強大的資料分析工具。而現在,具備推理能力的AI有望成為科學家的"研究夥伴"或"靈感催化劑"。它可以幫助科學家梳理文獻、發現不同領域知識之間的隱藏關聯、提出全新的科學假設、設計複雜的實驗方案,甚至獨立完成部分理論推導,從而極大地加速科學發現的處理程序。軟體工程(AI for Software Engineering):這是推理能力最先展現出顛覆性潛力的領域之一。具備強大推理能力的AI Agent,將能夠承擔從理解模糊的自然語言需求、進行系統架構設計、編寫高品質和可維護的程式碼,到設計測試用例、自動偵錯、乃至最終的部署和維運的全流程軟體開發工作。這可能會極大地改變軟體行業的生產模式,將人類程式設計師的角色從"程式碼工人"提升為"AI架構師"和"產品思想家",同時也對軟體工程的教育和培訓提出了全新的要求。金融與法律:在金融領域,AI可以進行更複雜的宏觀經濟預測、金融衍生品定價和全天候的風險建模,而不僅僅是基於歷史資料的模式識別。在法律領域,AI可以處理更複雜的案件分析、證據鏈梳理和合同審查,甚至進行一定程度的法律推理,為法官和律師提供決策支援。這要求相關領域的從業者必須學會如何與這些"AI法律助理"和"AI金融分析師"進行高效協作。教育:具備推理能力的AI家教,不僅能判斷學生的答案是否正確,更能理解學生的解題思路錯在了那裡,並能像一個有經驗的老師一樣,循循善誘地、一步步地引導學生掌握正確的思維方法。這為實現大規模、高品質的個性化教育提供了可能。總而言之,強化學習增強推理能力的突破,是2025年AI技術發展中最具變革性的力量。它讓AI開始擁有真正的"智力"而非僅僅是"知識",使其能力邊界從模式匹配和資訊檢索向複雜問題求解和自主規劃拓展。這是AI發展史上的一個分水嶺,也是邁向更通用、更強大人工智慧的關鍵一步。1.3.4 AI Agent爆發:從"工具"到"員工"的社會變革當大模型具備了強大的多模態感知能力、基於MoE架構的高效海量知識、以及由強化學習驅動的深度思考和規劃能力後,將這一切能力整合起來,並賦予其與外部世界互動、自主設定目標並執行任務的能力,便誕生了人工智慧體——AI Agent。如果說之前的AI是需要人來"使用"的"工具",那麼AI Agent就是一個可以被"僱傭"來自主完成任務的"數字員工"。在經歷了前兩年的概念驗證和技術探索後,2025年被業界普遍認為是AI Agent的商業化元年和"應用爆發之年"。這不僅是一項技術的成熟,更是一場深刻的生產力革命和社會變革的序幕。AI Agent的"三位一體"核心架構一個典型的AI Agent框架,無論其具體實現如何,通常都包含一個由"感知-規劃-行動"(Perception-Planning-Action)構成的核心循環,並輔以"記憶"和"工具使用"兩大關鍵能力,形成一個"三位一體"的智能系統:感知(Perception):這是Agent與世界互動的入口。得益於2025年成熟的原生多模態技術,Agent的感知能力已經遠超文字。它可以"看到"螢幕上的介面、圖表和視訊,"聽到"使用者的語音指令和環境聲音,並閱讀海量的文件、程式碼和網頁。這種全方位的感知能力是其理解複雜任務和環境的基礎。規劃與思考(Planning & Reasoning):這是Agent的"大腦"和"中樞神經"。當接收到一個複雜、高層次的目標(例如,"幫我規劃一次為期五天的北京家庭旅行,預算一萬元")後,Agent的核心推理引擎(通常由具備深度推理能力的大模型擔當)會啟動:任務分解(Task Decomposition):將模糊的大目標分解為一系列具體的、可執行的子任務(例如:1. 確認家庭成員和出行偏好;2. 搜尋往返機票和酒店;3. 規劃每日行程和景點;4. 估算餐飲和交通費用;5. 形成最終方案並徵求使用者意見)。自我反思與修正(Self-Reflection and Refinement):在執行過程中,Agent會不斷地對自己的計畫和行為進行評估。如果發現某一步走不通(例如,預訂的酒店滿房),它會分析失敗的原因,並自主修正後續的計畫(例如,更換酒店或調整行程日期)。這種"反思"能力是其區別於簡單自動化指令碼的關鍵。行動(Action):這是Agent影響和改變世界的出口。Agent的行動並非預設的固定程序,而是根據其規劃動態生成的。其核心能力在於工具呼叫(Tool Use)。技術堆疊成熟:從開源框架到商業化平台AI Agent在2025年的爆發,直接得益於其背後技術堆疊的快速成熟和標準化。以LangChain、LlamaIndex、AutoGen、CrewAI、MetaGPT等為代表的開源框架,為Agent的核心能力(規劃、記憶、工具呼叫)提供了標準化的、模組化的實現,極大地降低了開發者建構Agent應用的門檻。開發者不再需要從零開始實現複雜的邏輯,而是可以像"搭樂高"一樣,快速組合這些框架提供的元件來建構自己的Agent。2025年,我們看到這些開放原始碼專案開始向更成熟的"Agent平台"演進。這些平台不僅提供開發工具,還提供了一系列商業化的服務,形成了一個完整的生態系統:應用爆發:從個人助理到企業自動化成熟的技術堆疊催生了Agent應用的全面爆發,覆蓋了從個人生產力到企業級自動化的廣泛場景:AI軟體工程師:這是2025年最引人注目的Agent應用方向。以Cognition AI的Devin為代表,這類Agent能夠端到端地完成軟體開發任務。使用者只需用自然語言描述需求,Devin就能夠自主學習不熟悉的技術、編寫程式碼、修復bug、進行測試,並最終完成部署。它在SWE-bench基準上解決問題的能力,已經超過了許多人類初級工程師。這預示著軟體開發這一複雜的人類智力活動,正在被AI重塑。AI市場分析師與研究員:這類Agent能夠自動監控全網的新聞、報告、社交媒體和市場資料,根據設定的主題(例如,"分析2025年中國新能源汽車市場的競爭格局")進行資訊的抓取、清洗、整理和深度分析,並最終自動生成一份結構完整、圖文並茂、包含資料洞察和趨勢預測的深度研究報告。自主的個人助理:AI助理不再是被動地回答問題,而是能夠主動地、跨應用地為使用者完成任務。例如,使用者只需說一句"幫我安排下周三和張總的會議",Agent就會自動檢查雙方的日曆、協調空閒時間、傳送會議邀請、預訂會議室,並在會前自動整理好相關的背景資料傳送給使用者。企業自動化工作流(Hyperautomation):這是AI Agent在B端最具想像力的應用。通過將企業內部的OA、ERP、CRM等多個獨立的IT系統通過Agent打通,可以實現跨系統的、端到端的業務流程自動化。例如,一個"銷售訂單處理Agent"可以在CRM中收到新訂單後,自動去ERP中檢查庫存、在物流系統中安排發貨、在財務系統中生成發票,並自動給客戶傳送包含物流單號的確認郵件。這比傳統的RPA(機器人流程自動化)更加靈活和智能。"智能體經濟"(Agent Economy)的黎明AI Agent的商業化,正在催生一個全新的"智能體經濟"。在這個經濟體中,AI不再僅僅是工具,而是作為獨立的經濟參與者,提供服務、創造價值並參與分配。新的商業模式正在湧現:訂閱制"數字員工":企業可以像僱傭人類員工一樣,按月或按年訂閱一個"財務分析Agent"、"客戶支援Agent團隊"或"初級程式設計師Agent"。這些"數字員工"可以7x24小時不間斷工作,成本遠低於人力,且不會疲勞、不會犯重複性錯誤。結果導向付費(Outcome-based Pricing):使用者不再為Agent的計算過程或使用時長付費,而是為其創造的商業價值付費。例如,一個"銷售線索挖掘Agent"可以根據其最終帶來的有效銷售線索數量來收費;一個"廣告投放最佳化Agent"可以根據其提升的廣告轉化率來分享收益。這種模式將AI服務商與客戶的利益深度繫結。Agent應用程式商店(Agent Store):類似於蘋果的App Store或Salesforce的AppExchange,未來將會出現面向AI Agent的"應用程式商店"。開發者可以開發出各種功能的、面向特定場景的Agent並上架銷售,個人使用者和企業可以根據自己的需求,購買、組合不同的Agent來打造個性化的"超級助理"或自動化工作流。平台則從中抽取分成,形成一個繁榮的開發者生態。AI Agent的爆發,標誌著AI的角色正在從一個被動的"資訊提供者"轉變為一個主動的"任務執行者"和"價值創造者"。它將徹底改變人機互動的方式,並有望重塑軟體行業、服務行業乃至整個社會的生產力組織形式。當然,這也將對現有的商業模式和勞動力市場帶來顛覆性的衝擊,並引發關於AI倫理、責任歸屬、安全治理和社會公平的更深層次的社會討論,這些都將是未來幾年需要全社會共同面對和解決的重大課題。1.3.4 AI Agent爆發:從"工具"到"員工"的社會變革AI Agent的技術架構深度解析2025年,AI Agent的實現已經從概念驗證走向了工程化和產品化。一個生產級的AI Agent系統通常採用分層架構,各層之間通過標準化介面解耦,確保了系統的可擴展性和可維護性:1. 感知層(Perception Layer)感知層負責將多模態輸入轉換為統一的內部表示。2025年的先進Agent不再侷限於文字對話,而是整合了:視覺感知模組:基於Qwen-VL或GPT-5 Vision等原生多模態模型,能夠解析使用者上傳的截圖、圖表、照片,並理解介面元素和視覺上下文。這在自動化UI操作、視覺問答等場景中至關重要。語音感知模組:整合CosyVoice或Whisper等SOTA語音識別模型,支援流式語音輸入和即時轉錄,延遲可控制在300ms以內。結構化資料感知:通過Function Calling機制,Agent能夠呼叫API獲取JSON、XML等結構化資料,並將其自然語言化。2. 認知核心層(Cognitive Core)這是Agent的"大腦",通常由一個或多個大語言模型構成,負責推理、規劃和決策。2025年的最佳實踐包括:雙模型策略:使用一個強大的"規劃模型"(如GPT-5或Qwen-Max)進行任務分解和策略制定,再使用一個更快的"執行模型"(如Qwen-Plus或DeepSeek-V2)處理具體的子任務,在成本與性能間取得平衡。思維鏈工程:通過精心設計的System Prompt,強制模型在輸出最終答案前,先輸出結構化的思考過程,包括:目標分析、子任務列表、工具選擇理由、風險評估等。這不僅提升了透明度,也便於偵錯和最佳化。自我糾錯機制:引入"批判性反思"步驟,讓Agent在完成一個子任務後,主動評估結果質量,若發現缺陷則觸發回退或重試邏輯。3. 行動執行層(Action Layer)執行層負責將認知層的決策轉化為實際的操作。關鍵技術包括:工具呼叫協議:2025年已初步形成了標準化的Agent工具呼叫協議(如OpenAI的Function Calling、Anthropic的Tool Use),使得不同廠商的Agent框架能夠相容使用第三方工具。瀏覽器自動化:通過Playwright、Selenium等瀏覽器自動化工具,Agent可以模擬人類操作網頁,完成從資訊檢索到線上交易的完整流程。Cognition AI的Devin就展示了在真實GitHub倉庫中自主建立PR、修復CI錯誤的能力。程式碼執行沙箱:為Agent提供安全的程式碼執行環境(如Jupyter Notebook、Docker容器),使其能夠進行資料分析、檔案處理等複雜操作,同時實現嚴格的權限隔離和資源限制。4. 記憶管理層(Memory Management)長期記憶是Agent處理複雜多輪任務的關鍵。2025年的主流方案是混合記憶架構:短期記憶:利用LLM的上下文窗口(最高可達200萬token)儲存當前對話歷史和近期任務資訊,實現快速訪問。長期語義記憶:使用向量資料庫(如Milvus、Pinecone)儲存歷史互動、成功經驗、領域知識,支援基於相似度的檢索。情景記憶:以鍵值對形式儲存特定任務的執行軌跡(Observation-Action-Observation),供未來類似任務參考學習。企業級AI Agent的實施挑戰與解決方案儘管技術日趨成熟,但將AI Agent規模化部署到企業生產環境仍面臨嚴峻挑戰:挑戰1:可靠性與一致性LLM的機率性輸出導致Agent行為難以完全預測,可能出現"幻覺"或執行錯誤。2025年的解決方案包括:確定性規劃層:在LLM之上增加一個基於規則或符號邏輯的驗證層,對關鍵操作(如支付、資料刪除)進行強制性規則檢查。人類在環(Human-in-the-Loop):在高風險決策點設定人工稽核節點,Agent提交執行計畫供人類批准後方可執行。沙盒測試:在隔離環境中對Agent工作流進行自動化測試,驗證其在各種邊界條件下的表現,覆蓋率需達到95%以上。挑戰2:成本與性能最佳化複雜任務可能觸發數十次LLM呼叫,成本高昂且響應慢。最佳化策略包括:快取機制:對重複的子任務結果(如常見函數程式碼)進行快取,命中率可達60-80%。模型路由:根據任務複雜度自動選擇大小模型,簡單查詢用小模型(如Qwen-Slim),複雜推理用大模型,可降低30-50%成本。平行化執行:對於獨立的子任務(如同時查詢多個資料庫),採用非同步並行執行,總耗時從線性疊加降為最慢子任務耗時。挑戰3:安全與合規賦予Agent訪問敏感資料和系統的權限帶來巨大安全風險。2025年的企業級Agent必須實現:最小權限原則:Agent僅被授予完成特定任務所需的最小權限集,權限動態授予、用後回收。可審計性:完整記錄Agent的所有操作日誌,包括決策過程、工具呼叫參數、結果狀態,滿足SOX、GDPR等合規要求。對抗性魯棒性:對輸入進行過濾和清洗,防範提示注入(Prompt Injection)和工具劫持(Tool Hijacking)攻擊。第二章:AI大模型開發核心技術堆疊:從框架到部署的全景解析引言:建構未來智能的"開發者軍火庫"在AI大模型技術浪潮席捲全球的背景下,開發者作為這場技術革命的核心推動力量,其手中的"軍火庫"——即AI大模型開發的核心技術堆疊——的演進與迭代,直接決定了創新的速度、應用的深度和生態的廣度。2025年,AI開發技術堆疊經歷了從"手工作坊"式的探索到"工業化"生產體系的深刻變革。這一體系,上承模型演算法的創新,下接千行百業的應用落地,是連接理論與實踐、驅動AI價值釋放的關鍵樞紐。本章將為開發者和AI從業者提供一份詳盡的、面向2025年的AI大模型開發核心技術堆疊圖譜。我們將系統性地梳理和解析構成這一技術堆疊的四大核心支柱:基礎開發框架:從深度學習的基石PyTorch、TensorFlow和JAX,到引爆應用層創新的AI Agent框架(如LangGraph、AutoGen),我們將剖析其技術演進和選型考量。模型訓練與微調技術:我們將深入探討分佈式訓練的平行策略、參數高效微調(PEFT)的革命(特別是LoRA與QLoRA),為開發者在不同資源和場景下選擇最優訓練方案提供指南。推理最佳化與部署技術:我們將揭示以vLLM和TensorRT-LLM為代表的高性能推理框架如何通過PagedAttention等技術實現吞吐量的飛躍,並系統介紹模型量化、算子融合等核心最佳化手段。AI程式設計輔助工具:從GitHub Copilot到國產的通義靈碼,我們將評測這些"AI結對程式設計師"如何重塑開發流程,提升程式碼生產力。本章旨在通過對上述核心技術堆疊的全面解析,為開發者提供一個清晰的導航圖,幫助他們理解各種工具的內在邏輯、適用場景與最佳實踐,從而在建構下一代AI應用的征程中,能夠"選對兵器,打贏戰爭"。2.1 基礎開發框架:奠定AI創新的基石基礎開發框架是AI技術堆疊的"作業系統",它為上層演算法的實現、模型的訓練和應用的部署提供了底層的計算抽象和工具集。2025年,AI開發框架的版圖呈現出清晰的"雙層結構":下層是以PyTorch、TensorFlow和JAX為代表的"深度學習基礎框架",它們是建構和訓練神經網路的核心引擎;上層則是以LangChain、CrewAI、AutoGen等為代表的"AI Agent開發框架",它們專注於編排和調度大模型的能力,是引爆應用層創新的催化劑。理解這兩層框架的特點與分工,是開發者建構現代AI應用的第一步。2.1.1 深度學習基礎框架:三足鼎立,PyTorch王者地位穩固深度學習基礎框架是AI開發者的"主戰武器",它們直接決定了研究和開發的效率、靈活性與性能。經過多年的激烈競爭,2025年的市場格局已然清晰:PyTorch憑藉其靈活性和強大的社區生態,在學術界和工業界都佔據了絕對的主導地位;TensorFlow憑藉其在生產部署和移動端上的優勢,仍在特定領域保有一席之地;而JAX則以其高性能和獨特的函數式程式設計範式,在頂尖研究和大規模計算領域異軍突起,成為不可忽視的新生力量。PyTorch:當之無愧的王者由Meta AI研究院主導開發的PyTorch,在2025年已經成為絕大多數AI研究者和開發者的首選框架。根據Papers With Code等學術平台的統計資料,2024年至2025年間新發表的AI論文中,使用PyTorch實現的比例已經超過70-80%,形成了事實上的"學術壟斷"。其成功主要歸功於以下幾點:動態計算圖(Dynamic Computational Graph):這是PyTorch最核心的特性,也被稱為"Define-by-Run"。計算圖在程式碼實際執行階段才被建構,這意味著開發者可以使用標準的Python控制流(如if語句、for循環)和偵錯工具(如pdb)來建構和偵錯模型。這種所見即所得的程式設計體驗極大地降低了學習門檻,提高了開發和實驗的效率。相比之下,TensorFlow早期的靜態圖模式在偵錯時需要複雜的Session機制,學習曲線陡峭。簡潔直觀的API設計:PyTorch的API設計遵循"Pythonic"的哲學,與NumPy的介面高度相似,使得熟悉Python資料科學生態的開發者可以快速上手。其模組化的設計(如nn.Module、torch.optim)使得建構、訓練和評估模型的過程非常自然和清晰。例如,定義一個神經網路只需要繼承nn.Module並實現forward方法,這種物件導向的設計非常符合開發者的直覺。強大的社區與生態系統:PyTorch擁有全球最活躍、最龐大的AI開發者社區。這不僅意味著海量的開放原始碼專案、預訓練模型和第三方庫(如Hugging Face Transformers、PyTorch Lightning、fast.ai),也意味著開發者在遇到問題時可以快速找到解決方案。Hugging Face生態與PyTorch的深度繫結,更是極大地推動了其在NLP領域的普及。2025年,幾乎所有新發佈的重要模型都會第一時間提供PyTorch版本。無縫的生產部署過渡:通過TorchScript(將動態圖模型轉換為靜態圖)和TorchServe(官方模型服務庫),PyTorch彌補了早期在生產部署上的短板。特別是PyTorch 2.0版本後引入的torch.compile功能,通過與Triton等先進編譯器的整合,實現了"一次編寫,處處加速",在保持開發靈活性的同時,獲得了接近靜態圖的推理性能,打通了從研究到生產的"最後一公里"。torch.compile使用即時編譯(JIT)技術,能夠自動融合算子、最佳化記憶體訪問模式,在Transformer模型上可實現1.5-2倍的推理加速。TensorFlow:堅守工業界,專注生產部署由Google開發的TensorFlow是歷史上第一個被廣泛採用的深度學習框架。儘管在靈活性和社區活躍度上逐漸被PyTorch超越,但憑藉其在工業級生產部署和Google強大生態系統中的深厚根基,TensorFlow在2025年依然是許多大型企業和特定場景下的重要選擇。靜態計算圖(Static Computational Graph):TensorFlow 1.x時代的核心特性是"Define-and-Run",即先定義完整的計算圖,再執行。這種模式雖然開發和偵錯較為繁瑣,但非常有利於進行圖最佳化、跨平台部署和分佈式訓練。儘管TensorFlow 2.x引入了Eager Execution(類似於PyTorch的動態圖模式)作為默認模式,但其骨子裡仍然保留了強大的靜態圖能力,這使其在追求極致性能和穩定性的生產環境中備受青睞。靜態圖可以在部署前進行全域最佳化,如常數摺疊、算子融合、記憶體預分配等。完善的部署工具鏈(TensorFlow Extended - TFX):Google為TensorFlow打造了一套名為TFX的端到端機器學習平台,覆蓋了從資料準備、模型訓練、驗證、部署到監控的全生命周期。其中的TensorFlow Serving在處理大規模、高並行的推理請求方面表現出色,而TensorFlow Lite則是在移動和嵌入式裝置上部署AI模型的行業標準。這種"全家桶"式的解決方案對於需要標準化、可擴展和可維護的MLOps流程的大型企業具有很強的吸引力。TFX的各個元件(Transform、Trainer、Evaluator、Pusher)可以整合到Apache Airflow或Kubeflow Pipelines中,實現自動化的CI/CD。Google生態深度整合:作為Google的"親兒子",TensorFlow與Google Cloud Platform(GCP)、TPU硬體以及Android生態系統深度整合,能夠為使用這些平台和裝置的開發者提供最優的性能和最便捷的開發體驗。例如,在TPU上訓練時,TensorFlow可以通過XLA編譯器生成高度最佳化的TPU指令,性能遠超PyTorch。JAX:高性能計算的"核武器"同樣由Google開發的JAX,是一個相對較新的框架,但它憑藉其獨特的設計理念和驚人的性能,在高性能計算(HPC)和前沿AI研究領域迅速崛起,被認為是PyTorch和TensorFlow未來最強有力的挑戰者。JAX的核心並非一個傳統的深度學習框架,而是一個專注於高性能數值計算和大規模機器學習的Python庫。其核心競爭力源於幾個關鍵的函數變換:grad:自動微分:JAX提供了強大且靈活的自動微分功能,可以對任意複雜的Python函數(包括循環、分支、遞迴)進行求導,支援高階導數和複雜的梯度操作。其自動微分系統基於稱為"autograd"的技術,能夠自動追蹤所有操作並建構計算圖用於反向傳播。jit:即時編譯:通過@jax.jit裝飾器,JAX可以將Python函數編譯成針對CPU、GPU或TPU最佳化的XLA(Accelerated Linear Algebra)程式碼,從而消除Python直譯器的開銷,獲得接近原生程式碼的運行速度。XLA是Google開發的領域特定編譯器,能夠生成高度最佳化的機器碼。vmap:自動向量化:vmap可以自動地將一個處理單個資料點的函數,轉換為能夠平行處理一批(a batch of)資料的函數,而無需開發者手動修改函數來處理額外的批處理維度。這使得編寫可批處理的程式碼變得異常簡單和優雅。例如,如果你有一個計算單個向量范數的函數,vmap可以自動將其升級為計算矩陣中每一行向量范數的函數。pmap:自動平行化:pmap則可以將計算自動地平行到多個裝置上(如多個GPU或TPU核心),是實現資料平行的利器。它在多個裝置間自動處理通訊和同步,開發者無需編寫複雜的分佈式程式碼。JAX的函數式程式設計範式(函數無副作用)和這些強大的函數變換組合在一起,使得研究者可以用非常簡潔和優雅的程式碼,實現極其複雜的、高性能的分佈式訓練。DeepMind等頂級研究機構已經將JAX作為其主要的內部研究框架,許多需要超大規模計算的前沿模型(如大規模Transformer、科學計算模型)都優先選擇使用JAX實現。然而,JAX相對陡峭的學習曲線和尚在發展中的生態系統,也使其在普通開發者中的普及率暫時不及PyTorch。表2-1 三大深度學習基礎框架對比(2025年)對於中國的開發者而言,PyTorch無疑是當前進入AI領域的最佳選擇,其豐富的中文教學和活躍的國內社區(如PyTorch中文網)也為學習提供了便利。同時,隨著國產AI晶片生態的成熟,TensorFlow和PyTorch都在積極適配華為升騰、寒武紀等國產硬體,而JAX的函數式和可編譯特性也使其在適配新型AI硬體時具有獨特的優勢。2.1.2 AI Agent開發框架:引爆應用創新的"編排層"如果說深度學習基礎框架是製造AI"大腦"即大模型本身的工廠,那麼AI Agent開發框架就是為這個"大腦"安裝"神經系統"和"四肢"的裝配車間。它們不關心模型底層的數學原理,而是專注於一個更高層次的問題:如何有效地編排和調度大模型已經具備的各種能力(如語言理解、推理、程式碼生成),並將其與外部工具和資料來源連接起來,以完成複雜、多步驟的任務。2025年,Agent框架已經從早期LangChain"一家獨大"的探索階段,演變為一個百花齊放、更加成熟和細分的生態系統。這些框架共同構成了AI技術堆疊中至關重要的"編排層"(Orchestration Layer),是推動AI從"聊天機器人"走向"數字員工"的核心引擎。演進趨勢:從"鏈式"呼叫到"圖"與"多智能體"協作早期(2023-2024年)的Agent框架,以LangChain為代表,其核心思想是"鏈"(Chain)——將對大模型的多次呼叫與工具的使用像鏈條一樣串聯起來。例如,一個典型的ReAct(Reason+Act)流程就是"思考->行動->觀察->思考..."的線性循環。這種模式對於解決簡單問題非常有效,但隨著任務複雜度的提升,其侷限性也日益凸顯:缺乏狀態管理:線性鏈條難以維護複雜的上下文狀態和記憶。控制流僵化:難以實現複雜的條件分支、循環和並行。可偵錯性差:一旦鏈條出錯,很難定位到具體是那個環節出了問題。為了克服這些挑戰,2025年的主流Agent框架不約而同地向兩個方向演進:圖(Graph)結構和多智能體(Multi-Agent)協作。圖結構:用"圖"來代替"鏈",將Agent的工作流建模為一個有向無環圖(DAG)或狀態機。圖中的每個節點代表一個計算步驟(如呼叫大模型、執行工具、檢索資料),而邊則代表了節點之間的依賴關係和控制流。這種模式允許開發者建構任意複雜的、具有循環、分支和並行能力的Agent工作流,並提供了更好的可視化、偵錯和狀態管理能力。LangChain的後續演進產品LangGraph就是這一趨勢的典型代表。LangGraph使用狀態機理論,將Agent的狀態顯式地定義為節點間的轉移,使得複雜的對話管理和任務編排變得清晰可控。多智能體協作:借鑑人類社會的分工協作模式,將一個複雜的任務分解給多個具有不同角色和專長的Agent來共同完成。例如,一個"軟體開發項目"可以由"產品經理Agent"、"程式設計師Agent"和"測試工程師Agent"組成的團隊來協作。這種模式不僅提升瞭解決複雜問題的能力,也使得Agent系統的行為更加可解釋和可控。微軟的AutoGen和CrewAI是這一方向的引領者。AutoGen將Agent互動抽象為"群聊"概念,而CrewAI則提供了更結構化的角色、任務、流程定義。主流Agent框架全景解析(2025年)2025年,開發者面臨著豐富的Agent框架選擇,它們在設計哲學、核心能力和適用場景上各有側重。1. LangChain & LangGraph:從"瑞士軍刀"到"手術刀"LangChain:作為最早普及的Agent框架,LangChain以其全面的功能和豐富的元件被稱為"AI開發的瑞士軍刀"。它提供了與數百種大模型、工具和資料來源的整合,並封裝了從Prompt範本、記憶管理到鏈式呼叫的各種標準元件。對於初學者和快速原型驗證而言,LangChain依然是快速上手的首選。但其高度的封裝和複雜的繼承體系也使其在定製化和生產部署時顯得較為笨重。LangGraph:為瞭解決LangChain在複雜流程控制上的不足,其團隊推出了LangGraph。LangGraph完全擁抱了"圖"的思想,讓開發者可以用顯式的狀態機來定義Agent的行為。這使得建構需要長期運行、具備自我修正能力、並且行為可追溯的複雜Agent成為可能。例如,一個需要與使用者進行多輪互動、並根據反饋不斷修改方案的旅行規劃Agent,就非常適合用LangGraph來建構。LangGraph標誌著LangChain生態從一個通用的工具集,向一個更專注於生產級、可控Agent工作流的"手術刀"式解決方案的演進。2. AutoGen & CrewAI:多智能體協作的雙雄AutoGen:由微軟研究院推出的AutoGen,其核心是"可對話的"多智能體系統。它將Agent之間的互動建模為一場群聊。開發者可以定義多個具有不同系統提示(System Prompt)和工具集的Agent,並將它們放入一個"聊天室"中。當一個任務被提出後,一個"管理員Agent"會根據任務進展,自動選擇下一個應該"發言"的Agent。這種模式非常適合模擬人類團隊的工作流程,特別是在軟體開發等需要多個角色(如產品經理、程式設計師、程式碼審查員)來回溝通的場景中表現出色。CrewAI:CrewAI在多智能體協作的理念上與AutoGen類似,但提供了更高級、更結構化的協作模式。它明確引入了"角色"(Role)、"任務"(Task)和"流程"(Process)的概念。開發者可以為每個Agent清晰地定義其角色、目標和可使用的工具。CrewAI還內建了精細的流程控制機制(如順序流程、層級流程),可以編排Agent的協作順序。相比AutoGen的"自由聊天",CrewAI更像是為Agent團隊設定了一套嚴謹的Scrum敏捷開發流程,使其協作更高效、結果更可控。3. LlamaIndex:專注RAG,資料為王與上述框架不同,LlamaIndex從創立之初就專注於一個核心問題:如何將大模型與私有資料或外部資料進行高效、可靠的連接,即檢索增強生成(RAG)。它提供了一整套圍繞RAG的、從資料攝取、索引建構、到高級檢索策略的全生命周期工具。當其他框架還在將RAG作為Agent的一個"工具"時,LlamaIndex已經將RAG本身做成了一門"科學"。其核心優勢在於:高級資料索引:支援從簡單的向量索引,到更複雜的樹狀索引、關鍵詞索引、知識圖譜索引等多種結構化索引,以適應不同的資料類型和查詢需求。高級檢索策略:提供了從簡單的Top-k檢索,到更複雜的融合檢索(Hybrid Search)、查詢轉換(Query Transformations)、後處理(Post-processing)等一系列高級策略,以提升檢索結果的精準性和相關性。查詢引擎與Agent整合:LlamaIndex的查詢引擎可以輕鬆地作為一個強大的工具,被整合到LangChain或CrewAI等其他Agent框架中,專門負責"資料檢索和問答"這一環節。對於任何需要建構企業知識庫、文件問答、客戶支援等資料密集型AI應用而言,LlamaIndex都是不可或缺的核心元件。4. Dify & PromptAppGPT:低程式碼/無程式碼的民主化浪潮為了讓非程式設計師也能參與到AI應用的創造中,一系列低程式碼/無程式碼平台應運而生,其中Dify和PromptAppGPT是傑出代表。Dify:它提供了一個可視化的拖曳式介面,使用者可以通過連接不同的節點(如"開始"、"大模型"、"知識庫"、"程式碼執行")來設計一個AI應用的工作流。Dify內建了完整的後端服務和營運管理功能,支援一鍵發佈成可獨立使用的Web應用。它極大地降低了建構標準AI應用(如客服機器人、內容生成工具)的技術門檻,特別適合企業內部的業務人員快速搭建滿足其特定需求的AI工具。PromptAppGPT:這是一個更加輕量級的、以Prompt為中心的快速開發框架。其核心思想是"用自然語言來程式設計",開發者只需在一個YAML檔案中,用結構化的提示語來描述Agent的目標、工具和工作流程,框架就能自動將其編譯成一個可運行的Web應用。這種模式極大地提升了從想法到原型的開發速度。中國本土框架的崛起:以Qwen-Agent為例除了上述國際主流框架,中國的AI廠商也在積極佈局Agent框架生態。阿里巴巴推出的Qwen-Agent就是一個典型。它與通義千問大模型深度整合,充分利用了Qwen系列在中文處理和多模態能力上的優勢。同時,Qwen-Agent針對國內開發者常用的工具和服務(如釘釘、高德地圖、阿里雲服務)進行了預整合,為建構符合中國市場需求的Agent應用提供了便利。字節跳動推出的扣子(Coze)商業化閉源平台則更為廣泛地被使用,隨後在2025年7月份進行了基礎平台功能的開源。該平台與旗下豆包大模型深度打通,充分發揮了其在對話互動與場景化適配方面的技術積累。同時,Coze針對國內使用者高頻使用的平台和服務(如抖音、飛書、今日頭條等)進行了原生適配,並提供豐富的外掛生態,大大降低了建構符合中國市場使用習慣的AI智能體應用的門檻。表2-2 主流AI Agent開發框架對比(2025年)總而言之,2025年的AI Agent開發框架生態已經高度繁榮和分化。開發者在進行技術選型時,應從任務的複雜度、對流程控制的要求、是否涉及多智能體協作、以及對外部資料的依賴程度等多個維度進行綜合考量。對於大多數開發者而言,通常需要組合使用這些框架——例如,使用CrewAI來定義多智能體協作流程,其中每個Agent內部使用LangGraph來管理其自身的狀態,並呼叫LlamaIndex作為其強大的資料檢索工具。掌握這些框架的組合與應用,是現代AI應用開發者的核心競爭力所在。2.2 模型訓練與微調技術:釋放AI潛能的藝術如果說基礎框架是AI開發的骨架,那麼模型訓練與微調技術就是賦予其血肉與靈魂的工藝。正是這些技術,將海量的無結構資料轉化為蘊含知識和智能的龐大參數網路,並使其能夠適應千變萬化的下游任務。2025年,隨著模型規模邁入兆參數時代,傳統的訓練方法已難以為繼。為了應對"算力牆"、"記憶體牆"和"成本牆"帶來的巨大挑戰,一系列創新的訓練與微調技術應運而生並迅速普及。分佈式訓練技術的發展使得訓練兆模型成為可能;參數高效微調(PEFT)技術則極大地降低了模型定製化的門檻;而混合精度與低位元訓練技術,則在性能與成本之間取得了精妙的平衡。掌握這些技術,是AI開發者駕馭大模型、釋放其全部潛能的關鍵所在。2.2.1 分佈式訓練:駕馭兆參數模型的"合力之術"訓練一個兆參數等級的大模型,其計算量和記憶體需求是任何單一計算裝置(即使是最強大的GPU)都無法承受的。因此,分佈式訓練——即利用成百上千個GPU組成的計算叢集來協同完成訓練任務——成為了前沿大模型開發的唯一可行路徑。這門被譽為"合力之術"的技術,其核心在於如何將龐大的模型和海量的資料巧妙地切分開,分配到叢集的各個計算節點上,同時最大限度地減少節點間通訊所帶來的開銷。2025年,以資料平行、張量平行、流水線平行和專家平行(作為模型平行的一種高級形式)為核心的"3D+1D"混合併行策略,已成為業界訓練超大規模模型的標準範式。資料平行(Data Parallelism):最簡單直接的擴展方式資料平行是最基礎、最易於理解的平行策略。其核心思想是"模型複製,資料切分":工作原理:將完整的模型複製到叢集中的每一個GPU上。然後,將一個大訓練批次(Batch)切分成多個小的子批次(Micro-batch),每個GPU獨立地使用自己的子批次資料進行前向和後向計算,得到各自的梯度(Gradients)。最後,通過一個All-Reduce通訊操作,將所有GPU上的梯度進行聚合(通常是求平均),並用聚合後的梯度來更新每個GPU上的模型副本,從而保證所有副本的參數保持同步。優勢:實現簡單,幾乎所有主流訓練框架(如PyTorch的DistributedDataParallel,DDP)都提供了開箱即用的支援。在GPU視訊記憶體足以容納整個模型的前提下,它能夠非常有效地擴展計算能力,加速訓練過程。劣勢:記憶體冗餘。每個GPU都需要儲存一份完整的模型參數、梯度和最佳化器狀態,這使得其記憶體開銷巨大。當模型大到單個GPU無法容納時,單純的資料平行便無能為力。程式碼示例(PyTorch DDP):import torchimport torch.distributed as distfrom torch.nn.parallel import DistributedDataParallel as DDP# 初始化分佈式環境dist.init_process_group(backend='nccl')local_rank = int(os.environ["LOCAL_RANK"])torch.cuda.set_device(local_rank)# 模型載入到當前GPUmodel = MyLLM().to(local_rank)model = DDP(model, device_ids=[local_rank])# 訓練循環(每個處理程序處理不同的資料分片)for batch in dataloader:    output = model(batch)    loss = output.loss()    loss.backward()  # 反向傳播計算梯度# DDP自動同步所有處理程序的梯度    optimizer.step() # 所有處理程序參數保持同步張量平行(Tensor Parallelism):在矩陣乘法層面"劈開"模型當模型巨大到單個GPU的視訊記憶體無法容納時,就需要將模型本身進行切分。張量平行就是其中一種"模型平行"(Model Parallelism)的策略。它作用於模型內部的單個算子(Operator),特別是Transformer模型中計算量最大的矩陣乘法(MatMul)。工作原理:以一個Y = XA的矩陣乘法為例,可以將權重矩陣A按列切分成[A1, A2],分別放到兩個GPU上。輸入X被覆制到兩個GPU上,各自計算Y1 = XA1和Y2 = XA2。最後,通過一個All-Gather通訊操作將Y1和Y2拼接成最終的結果Y = [Y1, Y2]。對於Transformer中的多頭注意力機制(Multi-Head Attention),也可以將不同的"頭"分配到不同的GPU上平行計算。NVIDIA開發的Megatron-LM框架是張量平行的經典實現。優勢:能夠有效減少單個GPU上的記憶體佔用,使得訓練更大的模型成為可能。它將通訊開銷巧妙地隱藏在計算過程中,因為矩陣乘法計算本身耗時較長,通訊可以與計算重疊。劣勢:通訊開銷巨大。由於在模型的前向和後向傳播過程中都需要進行All-Reduce或All-Gather操作,張量平行對GPU之間的互聯頻寬要求極高,通常只適用於節點內(Intra-node)具有高速互聯(如NVLink)的多個GPU之間,不適合跨網路節點使用。流水線平行(Pipeline Parallelism):像工廠流水線一樣組織模型層流水線平行是另一種重要的模型平行策略,它將模型的不同層(Layers)分配到不同的GPU上,形成一條計算流水線。工作原理:將一個大模型(如一個60層的Transformer)按順序切分成多個階段(Stages),例如,將1-15層放在GPU 0上(Stage 1),16-30層放在GPU 1上(Stage 2),以此類推。一個訓練批次的資料被進一步切分成多個微批次(Micro-batches)。第一個微批次在Stage 1完成計算後,其輸出被傳送到Stage 2,同時Stage 1開始處理第二個微批次。通過這種方式,所有Stage可以像工廠流水線一樣平行工作。優勢:極大地降低了單個GPU的記憶體佔用,因為每個GPU只需儲存模型的一部分層。其通訊開銷相對較低,只發生在相鄰的Stage之間,因此非常適合跨網路節點(Inter-node)擴展。劣勢:存在"流水線氣泡"(Pipeline Bubble)問題。在流水線的啟動和排空階段,部分GPU會處於空閒等待狀態,造成計算資源的浪費。為了減小氣泡,需要使用大量的微批次,但這又可能影響模型的收斂性。GPipe、PipeDream和PyTorch的PipelineParallel模組是其典型實現。專家平行(Expert Parallelism):為MoE架構量身定製隨著混合專家(MoE)架構在2025年的普及,一種專門為其設計的、更高級的模型平行策略——專家平行——應運而生。工作原理:在MoE模型中,巨大的參數量主要來自於大量的"專家"網路。專家平行的核心思想,就是將這些專家分佈到叢集中的不同GPU上。當一個Token需要由某個專家處理時,它會被通過網路路由到儲存該專家的GPU上進行計算,計算完成後再將結果返回。這本質上是一種更動態、更稀疏的模型平行。優勢:能夠以極高的效率擴展模型的總參數量,是訓練兆級MoE模型的關鍵技術。劣勢:對網路的All-to-All通訊能力提出了極致的要求,因為每個Token都可能需要與叢集中的任何一個專家進行通訊。同時,動態的路由和負載平衡問題也為訓練帶來了新的複雜性。混合併行:集大成者的"3D+1D"策略在實踐中,單一的平行策略往往無法滿足訓練超大規模模型的需求。因此,2025年的業界標準做法是採用"混合併行"策略,將上述多種平行方式組合起來,取長補短。一個典型的尖端訓練系統(如微軟的DeepSpeed或NVIDIA的Megatron-LM)通常採用如下的"3D+1D"混合策略:節點內(Intra-node)採用張量平行:在一個伺服器節點內部的8個GPU之間,利用高速的NVLink互聯,進行張量平行,共同承載一個巨大的模型層。節點間(Inter-node)採用流水線平行:在多個伺服器節點之間,利用相對較慢的網路(如InfiniBand),進行流水線平行,將模型的不同階段分佈在不同節點上。全域採用資料平行:在上述平行設定的基礎上,將整個混合併行單元(例如,一個由32個GPU組成的、能夠承載一個完整模型的單元)複製多份,進行資料平行,以進一步擴展計算規模。在MoE模型中,額外疊加專家平行:將MoE層中的專家分佈到全域所有的資料平行副本上。此外,以ZeRO(Zero Redundancy Optimizer)為代表的記憶體最佳化技術,作為資料平行的"威力加強版",也得到了廣泛應用。ZeRO不僅切分資料,還巧妙地將模型參數、梯度和最佳化器狀態這三部分巨大的記憶體開銷,也切分開分佈到資料平行的所有GPU上,從而使得每個GPU的記憶體負擔都大幅降低。ZeRO-3階段甚至可以做到讓每個GPU上不儲存完整的模型參數,實現了資料平行與模型平行某種程度上的統一。表2-3 主流分佈式訓練平行策略對比(2025年)對於開發者而言,雖然直接從零實現這些複雜的平行策略難度極高,但幸運的是,以微軟的DeepSpeed和NVIDIA的Megatron-LM為代表的開源框架,已經將這些複雜的平行技術封裝成了易於使用的介面。開發者只需在配置檔案中進行簡單的設定,就可以為自己的模型啟用這些強大的混合併行能力。在國產算力生態方面,寒武紀的分佈式通訊庫(CNCL)針對大規模場景進行了專項最佳化,新增HDR/DBT等Allreduce通訊演算法,優先提升大規模條件下的通訊頻寬,對Alltoall操作進行深度最佳化,使其大規模擴展性達到與國際主流競品相當的水平。特別是通過在Kernel支援RoCE網路卡的RDMA操作(類IB GDA),顯著最佳化了大規模專家平行場景下的ALL2ALL通訊延遲,提升了MoE類模型推理任務的端到端吞吐。這些最佳化使得國產算力在支撐萬卡級大模型訓練時具備了與國際先進水平相當的通訊性能。掌握如何使用這些框架,並根據自己的硬體環境和模型特點來選擇和組合最合適的平行策略,是每一位致力於大模型訓練的AI工程師的必備技能。2.2.2 參數高效微調(PEFT):讓大模型"飛入尋常百姓家"的革命如果說分佈式訓練是少數巨頭才能參與的"登月計畫",那麼參數高效微調(Parameter-Efficient Fine-Tuning, PEFT)技術,就是一場將大模型能力"民主化"、使其"飛入尋常百姓家"的深刻革命。在PEFT出現之前,讓一個巨大的預訓練模型去適應一個特定的下游任務,通常採用"全量微調"(Full Fine-tuning)的方式,即調整模型中所有的參數。這種方式不僅成本高昂(需要大量的GPU資源和時間),儲存開銷巨大(每個任務都需要儲存一個完整的模型副本),還常常面臨"災難性遺忘"(Catastrophic Forgetting)的風險——模型在學習新任務的同時,可能會忘記在預訓練階段學到的通用知識。PEFT的出現徹底改變了這一局面。其核心思想是:在微調過程中,凍結絕大部分預訓練模型的參數(這些參數蘊含了寶貴的通用世界知識),只引入或修改一小部分(通常<1%)的額外參數來適應新任務。這種"四兩撥千斤"的策略,帶來了革命性的優勢:極低的計算成本:由於可訓練的參數量急劇減少,微調所需的計算資源和時間大幅降低,使得在單張消費級GPU上微調百億級大模型成為可能。極低的儲存成本:對於每個下游任務,只需儲存和分發那一小部分被修改的參數(通常只有幾十兆字節),而非整個數十GB的模型副本。避免災難性遺忘:由於99%以上的原始模型參數被凍結,模型能夠很好地保持其強大的泛化能力。性能媲美全量微調:大量研究和實踐證明,在許多工上,精心設計的PEFT方法可以取得與全量微調相當甚至更好的性能。2025年,PEFT已經成為大模型定製化的主流範式。在眾多PEFT方法中,以LoRA(Low-Rank Adaptation)及其變體QLoRA最為耀眼,它們憑藉其出色的效果和普適性,成為了事實上的行業標準。LoRA:在模型權重中注入低秩之魂由微軟研究員提出的LoRA,其背後有一個深刻的洞察:大型語言模型雖然參數維度極高,但它們在適應下游任務時,其權重的變化矩陣(即"微調後的權重"減去"原始權重")本質上是"低秩"(Low-Rank)的。這意味著這個巨大的變化矩陣,可以用兩個小得多的矩陣相乘來近似表示。基於此,LoRA的實現方式堪稱優雅而高效:凍結原始權重:在微調時,原始的預訓練權重矩陣W(例如,Transformer中Attention層的查詢Q或鍵K的權重矩陣)保持不變。注入低秩介面卡:在W旁邊,並聯一個"低秩介面卡"(Low-Rank Adapter)。這個介面卡由兩個小矩陣A和B組成。A是一個隨機初始化的高瘦矩陣,B是一個零初始化的矮胖矩陣。它們的秩(Rank,r)遠小於原始權重的維度。只訓練介面卡:在微調過程中,只訓練矩陣A和B的參數,W始終被凍結。模型的總前向傳播變為 h = Wx + BAx。無縫合併部署:在推理部署時,可以將訓練好的BA矩陣與原始的W矩陣直接相加,得到一個新的權重矩陣 W' = W + BA。這意味著LoRA在推理時不會引入任何額外的計算延遲,這是其相比其他PEFT方法(如Adapter-Tuning)的巨大優勢。LoRA的秩r是一個關鍵的超參數,它控制了介面卡的容量。r越大,可訓練的參數越多,模型的擬合能力越強,但計算和儲存開銷也相應增加。在實踐中,r通常被設定為8、16或64這樣的小值,就已經能在大多數任務上取得優異的效果。QLoRA:將"平民化"推向極致LoRA極大地降低了微調的計算成本,但它仍然需要將完整的模型載入到視訊記憶體中進行前向和後向傳播,對於百億級模型,這依然需要數十GB的視訊記憶體,超出了大多數消費級GPU的承受範圍。為瞭解決這個"最後的堡壘",華盛頓大學的研究者們在LoRA的基礎上,結合了激進的量化技術,提出了QLoRA(Quantized LoRA),將大模型微調的平民化推向了極致。QLoRA的核心創新在於"用4-bit的精度來儲存和計算凍結的預訓練模型,同時用16-bit的精度來訓練LoRA介面卡",其關鍵技術包括:4-bit NormalFloat(NF4)量化:這是一種理論上資訊最優的新的4-bit資料類型。研究者發現,對於呈常態分配的預訓練模型權重,NF4相比傳統的4-bit整數或浮點數量化方法,能夠更好地保留資訊,減少量化誤差。雙重量化(Double Quantization):為了進一步節省記憶體,QLoRA對量化過程本身產生的"量化常數"(Quantization Constants)進行第二次量化,平均每個參數可以再節省約0.5位元的儲存空間。Paged Optimizers:利用NVIDIA統一記憶體(Unified Memory)的特性,將那些在GPU視訊記憶體不足時可能導致程式當掉的最佳化器狀態(Optimizer States)自動地從GPU視訊記憶體分頁到CPU記憶體中,從而避免了OOM(Out of Memory)錯誤。通過這套組合拳,QLoRA成功地將微調一個650億參數模型(如LLaMA-65B)所需的視訊記憶體從驚人的780GB降低到了僅48GB,使得在單張專業級GPU(如A100 80GB)上微調超大模型成為現實。更令人振奮的是,後續的開源社區實踐進一步表明,通過QLoRA,在24GB視訊記憶體的消費級顯示卡(如RTX 3090/4090)上微調70億甚至130億參數的模型也完全可行。其他PEFT方法概覽除了LoRA家族,PEFT領域還存在其他幾種重要的技術路線:Adapter-Tuning:這是最早的PEFT思想之一。它在Transformer的每個Block中串聯地插入一個非常小的、被稱為"介面卡"(Adapter)的瓶頸狀神經網路模組。微調時只訓練這些介面卡的參數。其缺點是在推理時會引入額外的計算延遲。Prefix-Tuning & Prompt-Tuning:這類方法不改變模型本身的任何權重,而是在輸入層或每一層的注意力機制前,加入一小段可訓練的、連續的向量序列(即"軟提示"或"前綴")。通過只最佳化這些前綴向量,來引導模型的行為以適應下游任務。這種方法對模型的侵入性最小,但表達能力相對有限。表2-4 主流參數高效微調(PEFT)技術對比(2025年)綜上所述,以LoRA和QLoRA為代表的PEFT技術,已經成為2025年AI開發者進行模型定製化的必備技能。它們不僅極大地降低了技術和資源門檻,也催生了一個繁榮的開源模型微調社區。對於這樣的平台而言,提供對LoRA/QLoRA的一站式支援,包括便捷的訓練指令碼、預最佳化的環境和豐富的微調模型案例,將是服務廣大AI開發者的核心價值所在。通過這些技術,無數中小企業和個人開發者得以站在巨人的肩膀上,用大模型解決自己領域內的具體問題,從而真正開啟了AI應用的"寒武紀大爆發"。2.3 推理最佳化與部署技術:從"能用"到"好用"的最後一公里如果說模型訓練是十年磨一劍的"鑄劍"過程,那麼推理最佳化與部署就是將這把"神劍"送上戰場、使其能夠大規模、低成本、高效率地"殺敵"的"出鞘"之術。一個未經最佳化的百億參數大模型,其推理過程不僅速度緩慢(生成一個詞可能需要數秒),而且對硬體資源(特別是視訊記憶體)的消耗也極為驚人,這使得其在真實世界的應用中成本高昂、體驗不佳。因此,推理最佳化與部署技術,成為了決定大模型能否從實驗室走向千家萬戶、從"能用"變為"好用"的最後一公里,也是AI應用商業化成敗的關鍵所在。2025年,大模型推理面臨的核心挑戰,已從單純的計算密集(Compute-bound)轉變為更棘手的記憶體頻寬密集(Memory-bound)。在自回歸(Auto-regressive)的生成過程中,每生成一個token,都需要將整個龐大的模型權重從視訊記憶體中完整地讀取一遍。相比於GPU強大的計算能力,視訊記憶體的讀寫速度成為了嚴重的瓶頸。此外,如何高效地管理和利用視訊記憶體,特別是儲存每個請求上下文的鍵值快取(KV Cache),以及如何在高並行場景下最大化GPU的吞吐量,都是推理最佳化需要解決的核心難題。為了應對這些挑戰,一個由演算法、軟體和硬體協同構成的、高度複雜的推理最佳化技術堆疊應運而生。本節將深入解析構成這一技術堆疊的兩大核心部分:關鍵最佳化技術:我們將剖析包括FlashAttention、PagedAttention、模型量化(Quantization)、KV快取最佳化(MQA/GQA)和投機解碼(Speculative Decoding)在內的核心演算法與技術,揭示它們如何從根本上緩解記憶體頻寬瓶頸和提升計算效率。主流推理框架:我們將對以vLLM和TensorRT-LLM為代表的業界頂級推理引擎進行全景式掃描,分析它們如何將上述最佳化技術工程化、產品化,為開發者提供開箱即用的高性能推理服務。2.3.1 關鍵最佳化技術:演算法與工程的協奏曲高性能推理的實現,是一場演算法與底層硬體精妙配合的協奏曲。2025年,一系列關鍵技術的突破與普及,從根本上改變了大模型推理的效率和成本結構。FlashAttention:重塑注意力計算,告別記憶體牆標準的自注意力機制(Self-Attention)是Transformer模型的核心,但也是其主要性能瓶頸之一。在計算過程中,它需要生成一個巨大的N×N(N為序列長度)的注意力得分矩陣(Attention Matrix),並將其寫入和讀出高頻寬記憶體(HBM)。隨著序列長度N的增加,這個矩陣的大小呈平方級增長,很快就會耗盡視訊記憶體頻寬,成為瓶頸。由史丹佛大學研究者提出的FlashAttention,通過一種"IO感知"的演算法設計,巧妙地解決了這個問題。其核心思想是避免將完整的注意力矩陣物化(materialize)到HBM中:工作原理:FlashAttention將輸入序列切分成多個小塊(Tiles),並載入到GPU核心上速度極快的SRAM中。它在SRAM內部完成一小塊注意力矩陣的計算、Softmax操作和與Value矩陣的乘積,然後只將最終的輸出寫回HBM。通過精巧的線上Softmax技巧,它可以在不看到完整注意力矩陣的情況下,正確地計算出最終結果。這個過程就像"流式處理"一樣,極大地減少了對HBM的讀寫次數。效果:FlashAttention將注意力計算的複雜度從O(N²)的記憶體訪問,降低到了O(N)。FlashAttention-2版本進一步最佳化了平行計算效率,相比標準注意力實現,可以帶來2-4倍的端到端推理加速和顯著的記憶體節省。到2025年,FlashAttention已成為所有主流推理框架的標配。特別是對於長上下文模型(如支援200萬token的Kimi),FlashAttention幾乎是不可或缺的。PagedAttention:像作業系統一樣管理KV快取在多使用者、高並行的推理服務中,對KV快取(KV Cache)的管理是另一個巨大的挑戰。每個使用者的請求序列長度不同,導致其KV快取大小也各不相同且動態變化。傳統的實現方式是為每個請求預分配一塊連續的視訊記憶體空間來儲存其KV快取,這會導致嚴重的記憶體碎片化問題:內部碎片:為請求預留了過多的空間,造成浪費。外部碎片:雖然總的空閒視訊記憶體很多,但沒有一塊足夠大的連續空間來滿足新請求,導致請求失敗。由vLLM團隊首創的PagedAttention,借鑑了現代作業系統中"虛擬記憶體"和"分頁"的思想,完美地解決了這一難題。工作原理:PagedAttention將每個請求的KV快取空間分割成固定大小的"塊"(Blocks),這些塊在物理視訊記憶體中可以非連續儲存。系統維護一個"塊表"(Block Table),為每個請求記錄其邏輯塊到物理塊的對應關係。當需要為序列擴展KV快取時,只需分配新的物理塊並更新塊表即可,無需進行昂貴的記憶體複製和重排。更妙的是,對於多個請求之間共享的前綴(例如,多輪對話中的歷史記錄),PagedAttention可以實現塊等級的記憶體共享,進一步節省視訊記憶體。例如,在批次處理100個關於同一文件的問答請求時,它們共享的文件前綴KV快取只需儲存一份,而不是100份。效果:PagedAttention將視訊記憶體利用率提升了2-4倍,使得在相同的硬體上,系統的吞吐量(每秒處理的token數)可以提升2-4倍。這一技術是vLLM等現代推理框架取得極致吞吐量的核心秘訣。KV快取最佳化:從架構層面"瘦身"除了管理方式的最佳化,直接從模型架構層面減小KV快取的大小,是另一種有效的最佳化路徑。標準的多頭注意力(Multi-Head Attention, MHA)為每個注意力頭都配備了一套獨立的Key和Value投影,這導致KV快取的尺寸與頭的數量成正比。多查詢注意力(Multi-Query Attention, MQA):MQA提出,讓所有的注意力頭共享同一套Key和Value投影。這樣做雖然在理論上會損失一定的模型表達能力,但在實踐中發現,對於大型模型而言,這種性能損失微乎其微,卻可以極大地減小KV快取的大小和生成每個Token時所需的記憶體頻寬。分組查詢注意力(Grouped-Query Attention, GQA):GQA是MHA和MQA之間的一個折中方案。它將注意力頭分成若干組,組內的頭共享同一套Key和Value投影。例如,一個有32個頭的模型,可以設定8個KV組,每4個查詢頭共享一套KV。GQA在模型性能和推理效率之間取得了更好的平衡,已成為2025年許多新發佈模型(如Llama 2/3)的標配架構。表2-5 核心推理最佳化技術概覽(2025年)模型量化:用更少的位元表示更多的知識模型量化是一種通過降低模型權重和/或啟動值的數值精度,來壓縮模型大小、減少記憶體佔用和加速計算的技術。2025年,針對大模型的量化技術已經非常成熟,主流的"權重量化"(Weight-Only Quantization)方法可以在幾乎不損失模型性能的前提下,將模型大小壓縮2-4倍。GPTQ(Generalized Post-Training Quantization):GPTQ是一種訓練後量化方法,它通過逐層分析和量化權重,並對量化誤差進行補償,可以在4-bit精度下保持很好的模型性能。其核心思想是貪婪地選擇權重進行量化,並動態調整剩餘權重以補償量化誤差。AWQ(Activation-Aware Weight Quantization):AWQ觀察到,並非所有權重對模型性能都同等重要。它通過分析啟動值的分佈,識別出那些對模型性能影響最大的"顯著權重"(Salient Weights),並為它們保留更高的精度(如FP16),而將其他權重進行更大力度的壓縮(如INT4)。這種方法在極低位元(如3-bit甚至更低)的量化上表現出色,且不需要反向傳播,量化速度極快。SmoothQuant:這是一種啟動-權重協同量化方法。它通過一個數學上等價的變換,將量化難度從啟動值(通常異常值較多)平滑地遷移一部分到權重上,使得兩者都更容易被量化,從而在INT8量化等場景下獲得更好的性能。投機解碼(Speculative Decoding):讓"小模型"為"大模型"開路投機解碼是一種巧妙的加速技術,它利用一個小的、速度極快的"草稿模型"(Draft Model)來輔助大的"目標模型"(Target Model)進行生成。工作原理:在生成每個token時,首先用草稿模型快速地生成一小段候選序列(例如5個Tokens)。然後,將這5個候選Tokens一次性地輸入到大的目標模型中,進行平行的驗證。如果目標模型驗證通過(即它自己本來也會生成這些Tokens),那麼就一次性地接受這5個Tokens作為最終輸出,相當於用一次大模型的計算換來了5個Tokens的生成,極大提升了速度。如果驗證失敗,則以目標模型的輸出為準,並用它來指導草稿模型的下一次生成。 (AI雲原生智能算力架構)
AI核爆級財報!輝達狂攬570億營收,黃仁勳喊出“GPU賣空”,第四季度劍指650億
黃仁勳:“ Blackwell 銷量爆表,雲 GPU 已售罄。”輝達創始人兼首席執行官黃仁勳表示:“Blackwell 系列產品銷量爆表,雲 GPU 已售罄。訓練和推理領域的計算需求持續加速增長且相互疊加,兩者均呈指數級擴張。我們已進入人工智慧的良性循環,AI 生態系統正快速規模化 —— 更多新的基礎模型開發商、更多 AI 初創企業湧現,覆蓋更多行業和國家。人工智慧正無處不在、無往不至、即時賦能萬物。”一、業績炸穿預期:570億營收碾碎華爾街,盤後股價怒漲4%當整個科技圈都在屏息等待,輝達用一份核爆級財報給出了答案。(超預期!營收570億美元,淨利潤319億美元)——2025財年第三季度,這家AI晶片巨擘狂攬570.1億美元營收,不僅將華爾街546.6億美元的預期踩在腳下,更較去年同期的350.8億美元暴漲62%!調整後每股收益1.30美元,以絕對優勢碾壓1.24美元的市場預測,淨利潤更是飆至319.1億美元,創下美國企業季度利潤的巔峰紀錄之一。消息一出,資本市場瞬間沸騰。周三常規交易時段已漲3%的輝達股價,盤後直接火力全開,漲幅瞬間衝破4%,將10月末以來12%的跌幅強勢扭轉。要知道,這顆標普500指數的“定海神針”,今年以來已暴漲近40%,是大盤漲幅的三倍,此刻正以王者姿態宣告:AI熱潮絕非泡沫。二、業務全面狂飆:資料中心增66%,四大類股集體炸場輝達的統治力,早已滲透到AI產業鏈的每一吋肌理。作為核心引擎的資料中心業務,本季度狂攬512億美元營收,同比暴增66%,輕鬆擊穿490.9億美元的預期,其中僅計算GPU業務就豪取430億美元,相當於每天進帳近5億美元。黃仁勳那句“Blackwell銷量爆表,雲GPU已售罄”,絕非誇張——微軟、Google、亞馬遜這些超大規模雲廠商,正拿著現金瘋搶這顆AI“心臟”。傳統優勢領域同樣不甘示弱。遊戲業務營收43億美元,同比激增30%,用實力證明在AI之外仍握有王牌;專業可視化業務以7.6億美元營收、56%的同比增幅,展現出在設計、醫療等領域的滲透力;就連被視為“潛力股”的汽車與機器人業務,也交出5.92億美元、同比增長32%的亮眼成績,成為新的增長爆點。四大類股集體暴走,建構起無懈可擊的增長矩陣。三、盈利恐怖如斯:63%利潤率封神,360億EBIT碾壓同行如果說營收是硬實力,那盈利能力就是輝達的“核武器”。點選看:輝達Q3業績超預期:爆漲超4%本季度73.4%的毛利率創下新高,這一數字背後,是Blackwell/Hopper高端晶片的絕對定價權,更是全球AI算力需求供不應求的直接證明。75%的非GAAP毛利率指引,預示著這種盈利神話還將延續。息稅前利潤(EBIT)飆至360.1億美元,同比暴漲65%,63%的利潤率較去年同期再升1個百分點,這種經營槓桿堪稱行業奇蹟。每股收益同比激增67%,從0.78美元躍升至1.30美元,每一分營收都在高效轉化為股東收益。當其他科技公司還在為成本發愁時,輝達早已進入“躺著賺錢”的盈利巔峰。四、前景燃到發燙:第四季度劍指650億,黃仁勳喊出生態狂想比當下業績更炸裂的,是輝達對未來的絕對自信。公司直接將2025財年第四季度營收指引砸到650億美元,上下浮動2%的區間,仍將華爾街623.8億美元的預期遠遠甩在身後,較去年同期的393.3億美元增幅超65%。黃仁勳在聲明中那句“AI生態系統正快速擴張”,背後是全球範圍內湧現的基礎模型開發者、AI初創企業,以及橫跨各行各業的算力需求。“計算需求持續加速且不斷疊加”,這不是口號而是現實。當雲GPU已被搶空,當Blackwell Ultra成為最暢銷晶片,輝達正在定義下一代計算革命。125億美元的季度股票回購和2.43億美元股息支付,更彰顯了公司對現金流的絕對掌控力——一邊瘋狂擴張,一邊給股東發錢,這種底氣無人能及。五、統治級地位坐實:AI泡沫論碎了,它是全球算力的“命門”在此之前,“AI泡沫”的質疑聲從未停歇,科技股的回呼更讓市場憂心忡忡。但輝達的財報,直接將這些疑慮碾得粉碎。作為全球AI算力的“命門”,它的業績不僅是自身的勝利,更是整個AI產業健康發展的最強訊號。當亞馬遜用它的晶片訓練大模型,當汽車廠商靠它的技術實現自動駕駛,當醫療領域借它的算力加速新藥研發,輝達早已超越“晶片公司”的定義,成為全球數字經濟的核心引擎。輝達用一份份炸裂的財報證明:它的增長故事,才剛剛進入高潮。 (深科技) CFO介紹業績圖:
人在上海,追芯成功
大模型下半場,國產AI晶片如何創新?都在這場大會裡了。智東西9月17日報導,今日,2025全球AI晶片峰會在上海舉行,來自AI晶片領域的42位產學研專家及創業先鋒代表,暢談對大模型下半場中國AI晶片創新、落地、生存、破局的最新觀察與思考。一如既往,大會將國產AI晶片新老勢力、核心生態鏈企業、投資機構代表匯聚一堂,集中輸出技術及產業乾貨,全景式解構AI晶片熱門發展方向。本屆峰會由智一科技旗下智猩猩與芯東西共同舉辦,以“AI大基建 智芯新世界”為主題,由主論壇+專題論壇+技術研討會+展覽區組成,覆蓋大模型AI晶片、架構創新、存算一體、超節點與智算叢集技術等前沿議題。AWE同時也是本次峰會的戰略合作機構。值得一提的是,多家AI晶片企業在會上放出猛料。例如,幾位資深投資人分享投資AI晶片企業所看重的條件,一家超節點創企成立幾個月就融資六七億,雲天勵飛正在研發新一代NPU Nova500,華為昇騰將在12月把CANN全量開源,曦望Sunrise下一代晶片的大模型推理性價比對標輝達Rubin GPU。在展覽區,超摩科技、奎芯科技、特勵達力科、Alphawave、芯來科技、Achronix、曦望Sunrise、矩量無限、AWE、晶心科技、芯盟科技等11家展商進行展示。▲展覽區一隅作為主辦方代表,智一科技聯合創始人、CEO龔倫常發表致詞。從2018年3月至今,全球AI晶片峰會共邀請了超過180位產學研大咖,分享行業趨勢與洞見,已成為AI晶片領域唯一一個持續舉辦且具有廣泛影響力的產業峰會,也是瞭解國內外AI晶片動態的重要窗口。▲智一科技聯合創始人、CEO龔倫常龔倫常還預告了將於今年11月底在深圳舉辦的2025中國具身智慧型手機器人大會,歡迎大家參會交流。註:本文整理了主論壇與大模型AI晶片專題論壇的精華總結。更多相關報導將在後續發佈。01.IEEE Fellow王中風教授:解讀AI晶片三大前沿方向應對模型規模“超摩爾”增長、傳統架構“記憶體牆”、應用場景日趨多元化三大挑戰,中山大學積體電路學院院長、IEEE/AAIA Fellow王中風教授探討了AI晶片設計的三大前沿方向,為行業的發展提供了寶貴的見解和指導。一是模型驅動的高效晶片設計,在模型尺寸增長的趨勢下,讓硬體深度適配AI模型特性,而非讓模型發展受限於硬體資源。王中風教授團隊提出的Transformer硬體加速架構設計工作,是首個完整解決Attention計算加速挑戰的方案,獲得了IEEE 2020年片上系統年會(SOCC)最佳論文獎;N:M稀疏Transformer推理加速框架,可快速實現任意N:M稀疏比例的Transformer模型開發和硬體部署,同時能保持精度穩定;粗粒度-細粒度混合精度量化,搭配專用多核加速器來處理差異計算,能夠實現更靈活的調度。二是應用驅動的AI晶片創新,注重模型的落地與應用,兼顧能效和靈活性的探索。架構創新沒有唯一解,只有更合適的解。結合可重構硬體架構(動態適配不同演算法需求)、領域專用架構(在垂直場景實現超過通用架構的能效)、Chiplet等先進封裝技術(提高設計靈活性、降低成本、縮短上市周期),以應用驅動為核心的AI晶片設計,將是未來值得重點探索的研究方向。三是基於存算一體的晶片設計,從存算架構根源降低能耗,平衡性能與功耗。存算一體架構是晶片設計範式轉移的一個重要方向。數字存算架構的優勢是高精度、高穩定性、生態更成熟,但存在高能耗、高硬體開銷、低儲存密度等問題;模擬存算架構具有低能耗、高儲存密度、低硬體開銷等優勢,但精度較低、對工藝要求高、生態不成熟。王中風教授團隊研究的基於SRAM的數字存內計算架構大模型加速器,支援多種資料精度,相比於傳統馮諾依曼架構,能效比可提升數十倍。上述三條路徑並非孤立,而是相互支撐,共同推動AI晶片從“通用適配”走向“精準定製”。▲中山大學積體電路學院院長、IEEE/AAIA Fellow王中風教授王中風教授總結說,當前AI晶片發展呈現三大關鍵趨勢:一是從通用計算走向領域專用的“專用化”,二是演算法與軟硬體共同進化的“協同化”,三是通過新型計算打破性能瓶頸的“一體化”。以AI計算專用架構SRDA(系統級極簡可重構資料流)為例,通過分佈式3D記憶體控制技術、可重構資料流計算架構、系統級精簡軟硬體融合設計等創新,在大模型智算場景可以大幅提升AI算力利用率與性能,驅使未來基於國產工藝的AI算力晶片也可以實現不亞於國外更先進工藝製程的GPGPU性能。下一代計算範式的發展,首先是軟體、演算法、硬體的共生,實現全環節協同進化;其次是實現無處不在、高效且可信的智能計算,在雲端實現支援AGI訓練的巨型超算系統,在邊緣實現自主機器人的即時決策大腦,在端側實現超低功耗的Always-On感知晶片。此外,高效支援智能計算,還需要促進新興技術融合,實現光子計算、量子計算、AI晶片的潛在結合。王中風教授呼籲開放標準,推動介面、互聯、指令集等的開放,降低創新門檻;注意產學研深度合作,共同攻克量智融合、存算一體、新材料、新工藝、新器件等領域的技術難題;注重人才培養,培養兼具演算法、架構、底層電路及軟體開發等技能的交叉型人才。02.高端對話:大模型下半場引爆國產算力,AI晶片IPO潮將更具想像高端對話以《⼤模型下半場,中國AI芯⽚的破局與突圍》為主題,由智一科技聯合創始人、智車芯產媒矩陣總編輯張國仁主持,和利資本合夥⼈王馥宇、普華資本管理合夥⼈蔣純、BV百度風投董事總經理劉⽔、IO資本創始合夥⼈趙佔祥四位嘉賓進行分享。張國仁談道,大模型的下半場不僅是技術競賽,更是生態競爭,期待中國即將誕生“晶片+場景+演算法”的垂直整合者,出現更多的單項冠軍。▲智一科技聯合創始人、智車芯產媒矩陣總編輯張國仁1、DeepSeek擴大算力池後,投資AI晶片企業看什麼?王馥宇認為,DeepSeek的出現意味著中國出現了“Leading Customer”,好的科技公司會向晶片公司提出需求。蔣純進一步補充道,DeepSeek最大的意義是讓中國有了一套自有大模型體系,讓國產晶片有了用武之地。這些資深投資人會傾向於投資什麼樣的AI晶片團隊?幾位投資人均看重企業的技術路線是否收斂。趙佔祥尤其關注技術路線是否有提升及創新。劉水提到百度風投不單純以商業化衡量項目價值。蔣純說:“小孩子才做選擇,成年人我都要。”他表示成熟技術和創新技術都在投資。王馥宇將市場分為兩類,一類是相對確定的市場,考驗團隊的積累和執行力,第二類是靠技術驅動市場發展。展望晶片企業的未來機遇,蔣純認為,碳基文明被矽基文明取代之前,算力的市場機會看不到頭,市場前景無窮大,現在的技術體系並不是終局。2、一家超節點創企,成立幾個月融資六七億王馥宇稱,很多大廠同樣在建構非全家桶方式的網路架構,未來百花齊放,企業要保持開發、敏感。在蔣純看來,對中國企業面臨的現實情況而言,“小米加步槍”的scale out路線和超節點所代表的scale up路線至少是同樣重要。趙佔祥透露,IO資本最近在看的一個超節點創業公司,成立幾個月就融資六七億,但在超節點機遇背後,網路的可靠性、故障率要求仍面臨挑戰。BV百度風投曾投資不少具身智能企業。據劉水分享,具身智能是個新興賽道,晶片作為核心硬體支撐,目前還在迭代期,真正能完美匹配各類複雜物理互動場景的成熟晶片產品,行業內仍在探索。現階段,很多企業選擇x86 CPU加AI晶片的組合來搭建基礎算力平台,這是行業在技術演進過程中非常自然的過渡性選擇,能快速驗證產品邏輯、跑通初步場景。而這種 “過渡性” 也正是產業的機會所在——未來無論是更適配具身特性的專用晶片研發,還是基於現有硬體的算力效率最佳化,只要能解決實際場景中的痛點,就是產業發展的機會點。3、寒武紀一度登頂A股,“寄託了全村人的希望”幾位投資人雖然主要看一級市場,但也聊到對二級市場的觀察。他們普遍認為,接下來要IPO的AI晶片公司會比登陸2019年科創板的那批國產替代概念晶片公司更有想像力。今年,寒武紀一度超越貴州茅台登頂A股“股王”。在蔣純看來,寒武紀的暴漲背後可能“寄託了全村人的希望”。與上一波晶片企業上市潮相比,當時國產替代概念市場有限,但現在AI市場的需求是無限的。劉水補充說,AI需求正為計算基礎設施建設注入強勁動力。當前,不少國產晶片企業積極推進IPO處理程序,這本身是行業加速成長的體現——借助資本市場的力量,企業能更好地投入研發、擴充產能,為技術突破和規模化交付奠定基礎。不過,上市只是發展的新起點,最終能否站穩市場,關鍵仍在於技術的成熟度、產能的穩定供給以及客戶的深度認可。從長遠來看,企業需要以持續的技術創新和紮實的商業化能力,真正實現產業價值與市場價值的同步兌現。03.瞄準大模型高效推理,做好生態開源開放面向持續爆發的大模型推理需求,如何在晶片架構、開源開放、高速互連、超節點等方向探索創新?在上午主論壇期間,來自雲天勵飛、華為昇騰、行雲積體電路、奎芯科技、探微芯聯、新華三的產業嘉賓分別發表主題演講,分享了他們的觀察與思考。1、雲天勵飛陳寧:國產AI推理晶片迎歷史性機遇雲天勵飛董事長兼CEO陳寧談道,在“政策+需求”雙重驅動下,國產AI推理晶片正迎來絕佳發展機遇。根據灼識諮詢報告,中國NPU市場規模短期預計新增規模339.3億元,長期預計新增規模1092億元。高效Token生成是衡量推理晶片性價比的關鍵指標。11年來,雲天勵飛已研發五代NPU,打造相關指令集、專用算子、存算一體架構、低位元混合量化等晶片硬體技術。其“算力積木”架構是基於國產工藝的D2D Chiplet & C2C Mesh大模型推理架構,具有可擴展性強、靈活性強、即時性高等特點。雲天勵飛提供“深穹”、“深界”、“深擎”三大AI推理晶片系列,分別面向大模型推理算力中心/超節點/一體機/加速卡、邊緣閘道器/邊緣盒子/家庭主機、及機器人/無人機/無人車等AI推理等應用。目前,雲天勵飛正在研發新一代NPU Nova500,並基於Nova500推出多款性能更強的AI推理晶片。▲雲天勵飛董事長兼CEO陳寧2、華為昇騰王曉雷:公佈全面開放原始碼的三個關鍵節點華為昇騰處理器產品總經理王曉雷談道,輝達的軟體開發人員是硬體的兩倍,我們作為生態的後來者,要做好開源開放,跟客戶與夥伴一起,把晶片和解決方案做得更好。晶片方案多種多樣,如何把它用好,是一件非常複雜的事情。AI計算領域,矩陣執行過程需要保證資料到位,而整個資料搬移過程是計算最佳化的核心。處理器跟底軟團隊需要與演算法和業務專家聯合最佳化,才能發揮出處理器的高性能。王曉雷現場公佈了昇騰未來進一步全面開放原始碼的關鍵節點,包括9月30日算子庫全部開源、12月30日CANN全量開源、2026年起解決方案配套產品上市即開源。▲華為昇騰處理器產品總經理王曉雷3、⾏雲積體電路季宇:10萬元跑滿血版DeepSeek⾏雲積體電路創始⼈&CEO季宇拋出一個問題:誰困住了AI產業?他的答案是大型機投資回報率。超節點化、大型機化的成本門檻巨大,但隨著大模型記憶體需求接近DDR/LPDDR的甜點,高品質模型的硬體系統平民化曙光已現。其概念原型產品大模型一體機“褐蟻”採用5090級算力+TB級高頻寬DDR5,能以10萬元成本運行DeepSeek R1/V3 671B FP8,對話速度超過20TPS,20K上下文prefill在18秒以內。叢集概念驗證方案“蟻群”可將超過40台“褐蟻”機器組合作為decode節點,prefill節點採用4根SSD替代DDR,總成本為300萬~500萬元,以約1~2台8卡超算的價格,實現20倍於1~2台超算的並行能力,提供接近DeepSeek公有雲的性價比。行雲希望通過其原型概念產品,呈現DDR/Flash滿足大模型推理需求的潛力,並通過晶片產品,將頂配大模型的硬體成本降低到萬元甚至千元級價位,推動AI普惠。▲⾏雲積體電路創始⼈&CEO季宇4、奎芯科技唐睿:Chiplet將加快國產晶片研發當前AI革命與過往網際網路產業有明顯差異,利潤高度向硬體環節傾斜。奎芯科技聯合創始⼈兼副總裁唐睿談道,隨著模型尺寸不斷變大,算力需求飆升,為了爭奪AGI領域的勝利,科技企業的CAPEX大幅增長且逐漸取代OPEX成為主流趨勢。AI領域存在晶片設計周期遠跟不上算力及模型發展需求的矛盾。在唐睿看來,基於Chiplet的設計能加快晶片研發迭代。2021年-2030年處理器預計研發項目數量年化增長約9%,但基於Chiplet的設計年化增長率高達44%,預計2030年佔比超一半。對此,奎芯打造了基於UCle標準介面IP的國產化完整解決方案,研發了兩代UCle IP,第一代為16GT/s,第二代為32GT/s,且在標準封裝實現。這些IP具有高性能、低功耗、靈活性等優勢,能為晶片快速迭代提供支援。▲奎芯科技聯合創始⼈兼副總裁唐睿5、探微芯聯劉學:國產超節點如何實現異構互聯?探微芯聯創始人、清華⼤學類腦計算研究中心劉學分享說,類腦計算與AI同源異流,天生具備超大規模計算系統的通訊基因,與智算超節點的發展趨勢十分吻合。探微將類腦叢集技術遷移至GPU智算平台,打造面向AI晶片的Scale-up完整互聯方案,實現了覆蓋通訊協議、交換晶片/網內計算、軟體棧/集合通訊庫、RAS機制與可維護機制、路由演算法、超節點平台、性能建模和異構互聯等關鍵技術。不過,劉學認為,超節點通訊不只是技術堆疊。通訊協議具有較強生態屬性,需要廣泛的應用場景和生態支援才能推廣。從類腦叢集體系結構的大量工程經驗積累,到探微通訊互聯關鍵技術的不斷迭代,探微方案實現從底層到高層的計算和通訊的全方位打通,能夠為智算超節點生態夥伴提供Scale-up通訊協議系統級解決方案、異構融合及智算超節點萬卡叢集工程方案。▲探微芯聯創始人、清華⼤學類腦計算研究中心劉學6、新華三劉善⾼:超節點是AI系統工程巔峰新華三集團AI伺服器產品線研發部總監劉善⾼談道,大模型技術趨勢給算力基礎設施帶來了算力牆、視訊記憶體牆、通訊牆等挑戰,打造AI超節點成為必然趨勢。這需要異構計算協同最佳化、高速網際網路絡、精密結構設計等基礎設施的深度整合,對軟硬協同要求高,是AI系統工程的巔峰。新華三設計了兩款超節點產品:整機櫃超節點H3C UniPoD S80000和靈活部署超節點H3C UniPoD F80000。S80000實現櫃內卡間全互聯通訊,互聯頻寬提升8倍,單機櫃訓練性能相較於單節點最高可提升10倍,單卡推理效率提升13倍;F80000基於傳統AI伺服器即可靈活擴展Scale-up網路,能夠實現MoE大規模訓練性能提升35%以上。未來,AI加速卡將更加百花齊放,高頻寬低延遲的卡間高速網際網路絡也將是必然趨勢。▲新華三集團AI伺服器產品線研發部總監劉善⾼04.資料流、低精度、稀疏化、全國產、Chiplet,AI晶片走向多路創新在下午的大模型AI晶片專題論壇上,上海交通大學電腦學院教授、上海期智研究院PI冷靜文分享了資料流體系架構如何成為新一代的大模型加速引擎。隨後,來自曦望Sunrise、愛芯元智、墨芯人工智慧、江原科技、邁特芯、智源研究院、北極雄芯、Alphawave的產業嘉賓分別發表主題演講,分享創新的技術路徑與最新進展。1、上海交通大學冷靜⽂教授:資料流能提高大模型推理效率上海交通大學電腦學院教授、上海期智研究院PI冷靜文認為,資料流體系架構是大模型高效執行研究的重要方向,它通過數值壓縮與計算流調度的最佳化,提升推理性能。低位寬數值類型可顯著降低儲存開銷,提高計算效率;而向量量化有望幫助大模型突破4bit的表示極限。冷靜⽂教授團隊研發了面向多元素量化的計算引擎VQ-LLM,通過三級快取機制和以碼本為中心的計算流程最佳化,實現性能與精度的雙重提升。新一代GPU架構正在逐漸DSA化,程式設計難度不斷增加。其團隊已經在探索一種“Kernel Free”的程式設計模型、用“Register Pooling”降低共用記憶體帶來的開銷,並使用動態平行機制,最終形成基於程式碼塊的資料流抽象機模型。項目成果未來將開源發佈。▲上海交通大學電腦學院教授、上海期智研究院PI冷靜文2、曦望陳博宇:國產AI晶片破局,極致推理目標1分錢/百萬Token曦望Sunrise研發副總裁陳博宇認為,大模型發展進入下半場,雲端訓練算力向高效推理傾斜。AI晶片高效推理是一場長期價值競賽,降成本、降能耗,性價比的窪地亟待填平。曦望的下一代晶片採用單晶片高配比低精度計算單元,大模型推理性價比對標輝達Rubin GPU。在主流測試集中,NVFP4精度下運行DeepSeek-R1的表現已接近FP8,低精度資料格式能顯著擴巨量資料吞吐,提升推理效率,從而降低每Token成本。曦望晶片軟體生態通用性良好。算子庫、工具鏈、通訊庫均為全端自研,主體功能模組與CUDA對齊,支援各類主流開源模型的推理部署,支援CUDA程式碼無縫遷移和工作。曦望晶片的應用形態分為一體機和超節點,是Scale-up/Scale-out互聯架構原生支援超節點產品。超節點支援PD分離和大EP部署、All-to-All互聯、面向千億級或兆級參數的多模態大模型推理。▲曦望Sunrise研發副總裁陳博宇3、愛芯元智劉建偉:AI應用(大模型)需要重新設計原生AI晶片愛芯元智聯合創始⼈、副總裁劉建偉分享道,過去端側AI晶片主要跑傳統CNN模型,場景明確,大模型的興起則提升了AI上限,應用場景更廣泛,有望引發成本驅動型生產力革命。在他看來,當AI程序規模足夠大時,現有運行架構不是最高效的,值得重新設計適合跑AI程序的原生處理器。端側和邊側長期受成本、功耗剛性約束,對高能效比AI處理器需求迫切。這驅使愛芯元智選擇從端側和邊緣側入手做AI基建。設計原生AI處理器,需關注算子指令集和資料流DSA架構,兩者相輔相成。採用可程式設計資料流微架構可提升能效比。異構多核處理器要保證由硬體來調度,以降低客戶開發與使用成本。愛芯元智已打造了從工具鏈到晶片的完整軟硬體體系,推動建構邊緣智能共同體。▲愛芯元智聯合創始⼈、副總裁劉建偉4、墨芯人工智慧曾昭鳳:稀疏化讓AI計算“更聰明”墨芯人工智慧解決方案總監曾昭鳳談道,傳統硬體架構面臨性能提升困境,通過軟硬一體方案來解決算力瓶頸已是業內公認的發展方向,稀疏化有望成為破解算力瓶頸的突破口。稀疏計算是一種“更聰明”的AI計算方式,如人類大腦一般,僅啟動計算所必需的神經元,減少冗餘重複,提升有效性能。基於這一認知,墨芯提出了“權重稀疏化+啟動稀疏化”的雙稀疏技術,在相同硬體資源下實現高達32倍的稀疏率,並協同設計了配套的軟體方案。從演算法與軟體出發,墨芯打造了相應的硬體與架構,開發的計算卡已能在雲端推理場景中加速CV、NLP及知識圖譜等多類任務。▲墨芯人工智慧解決方案總監曾昭鳳5、江原科技王永棟:建構全國產化AI晶片產業鏈江原科技已建構貫通EDA工具、晶片IP、晶片設計、晶片製造、封裝測試的全國產化AI晶片產業鏈。江原科技聯合創始⼈兼CTO王永棟認為,全國產路線已經成為行業共識,核心挑戰集中在工藝和生態上。他從工藝、架構、生態層面探討了國產晶片的突圍路徑。工藝維度,國內AI晶片企業唯一的道路就是擁抱全國產,具體路徑包括基於國內工藝特點進行協同最佳化、系統整合創新。架構維度,需要向AI定製傾斜,通過拆解AI演算法將其中佔比高、對效率影響大的部分進行硬體最佳化。生態維度,從降低客戶使用門檻、發揮本土化優勢打造性能長板、擁抱開源切入。▲江原科技聯合創始⼈兼CTO王永棟6、邁特芯李凱:突破端側大模型晶片三個關鍵痛點在邁特芯主任工程師李凱看來,端側AI場景正從“離身智能”向“具身智能”進化,這離不開端側晶片的支援。端側大模型晶片(LPU)需要滿足低功耗、高token數、低成本,這正是痛點所在。邁特芯LPU採用的3D-DRAM解決方案可大幅提升頻寬,以滿足端側大模型需求。該方案採用了針對大模型算子最佳化的DSA設計和自研立方脈動陣列架構,基於多項技術最佳化,實現計算利用率和記憶體頻寬利用率最大化。演示中,基於邁特芯LPU推理卡可實現大語言模型端到端部署,頻寬利用率75%、性能75tokens/s,性能和能效達到國際領先水平。邁特芯針對泛端側大模型硬體產品、端側大模型硬體產品和推理一體機三類場景佈局產品,三個市場的總空間可達兆級。▲邁特芯主任工程師李凱7、智源研究院鄭楊:統一編譯器給OpenAI Triton語言補短板北京智源⼈⼯智能研究院AI編譯器專家鄭楊分享說,OpenAI的Triton語言已成為業內公認的、繼CUDA後第二大流行的AI算子開發語言,但其也有明顯弱勢:需要在開發效率和性能之間權衡,跨晶片的可移植性和性能不足,治理與生態面臨侷限性,以及版本分散等。為此,智源建構了面向多元AI晶片的統一編譯器——FlagTree。FlagTree基於硬體感知進行了編譯指導最佳化,允許程式設計師通過註釋嵌入硬體最佳化提示flagtree_hints,具有使用成本低、生態相容好、可移植性強等特點。同時,該編譯器在C++執行階段進行了最佳化,提供從C++呼叫Triton核心的方法,從而節省Wrapper耗時,整體降低80%以上,與CUDA接近。▲北京智源⼈⼯智能研究院AI編譯器專家鄭楊8、北極雄芯徐濤:大模型推理落地有效降本迫在眉睫截至2025年6月,中國日均tokens消耗量突破30兆,比2024年增長300+倍,且依然處於高速增長期。而大模型應用商業化閉環任重道遠,一方面C段訂閱付費較難,B端API呼叫收費與美國相比有數量級的差距,另一方面國內算力成本並不優於美國。北極雄芯聯創、副總裁徐濤談道,當前中國大模型應用落地商業化,解決成本問題至關重要。而受制於各類制裁,面對高速增長的算力、儲存容量、記憶體頻寬的“不可兼得三角”,國內上下游企業亟需共同開展架構創新。在雲端推理場景,北極雄芯將在近期推出面向Decode環節的專用加速方案,通過Chiplet+3D堆疊的近存計算技術大幅降低推理成本至少一個數量級,相比主流GPU晶片提升10倍以上性價比。在端側AI領域,北極雄芯的啟明935系列芯粒通過Chiplet靈活組合應用,為主機廠提供AI Box、艙駕一體、高階智駕等不同擋次應用的解決方案。▲北極雄芯聯創、副總裁徐濤9、Alphawave鄧澤群:高速連接市場猛增,Chiplet是變革路徑Alphawave戰略客戶銷售經理鄧澤群談道,高速連接的市場規模2023年接近100億美元,預計2026年接近180億美元,年複合增長率達到20%。這背後的推動力就是資料中心建設,其對資料的傳輸、儲存、處理需求爆炸,資料頻寬每2~3年翻一倍。生成式AI正在重新定義計算和連接。他預測ChatGPT背後下一代模型的參數規模或達到百兆等級,促使雲服務商建設更高規格的資料中心。鄧澤群認為,新計算技術的變革路徑是Chiplet,以及為雲服務商進行定製,以滿足大語言模型的需求。伴隨AI產業發展,Alphawave的業務體系已經從IP供應擴展到高速連接技術的垂直整合方案。▲Alphawave戰略客戶銷售經理鄧澤群05.結語:國產AI晶片掀開落地新篇章8年來,智東西、芯東西持續對AI晶片全產業鏈進行追蹤報導,見證了AI晶片產業及智能革命浪潮的發展,以及許多AI晶片團隊的厚積薄發。多個知名市場調研機構的資料顯示,2024年中國AI晶片出貨量顯著提升,華為昇騰、阿里平頭哥、崑崙芯、寒武紀、摩爾執行緒、燧原科技、中昊芯英、壁仞科技、沐曦股份、太初元碁等企業的AI晶片均已走向量產交付,並在性能方面縮短與國際先進水平的差距。龐大的國內AI基建市場,正向國產AI晶片敞開大門。與此同時,國產AI晶片正迎來政策紅利期。今年8月,國務院印發《關於深入實施“人工智慧+”行動的意見》,在強化基礎支撐能力方面,提到強化智能算力統籌,支援AI晶片攻堅創新與使能軟體生態培育,加快超大規模智算叢集技術突破和工程落地。在AI產業趨勢、地緣博弈等複雜因素的影響下,AI晶片自主可控勢在必行,國產模型與國產晶片的適配有望進一步增強,AI晶片及算力基礎設施技術仍有巨大的創新空間和市場前景。 (智東西)
20隻獨角獸、34億美金,黃仁勳投出一個“AI帝國”
構築輝達未來生態的統治地位。圖源丨輝達輝達已成為當今AI時代的基石,而它對初創公司的投資,預示著它對未來十年建構輝達的大生態的野心。從2000年開始,輝達就開始進行股權投資。起初,它以收併購為主,2005年前後併購了3Dfx Interactive、MediaQ、Portalplayer等公司。後來,它就按照風險投資的方式,進行投資。截至目前,它已參與了200余項投資,投出了20只獨角獸。自2023年起,輝達在一級市場出手越發頻繁,從2022年20起左右的投資,上升到2023年末大約50起。此後的時間,輝達保持著大約一年50~60起的投資節奏。該時期,輝達的通用GPU成為AI的關鍵基礎設施,同時也是輝達的股價受AI催化而翻倍增長的時候。從投資標的發展階段而言,輝達橫跨了從種子輪到D輪、E輪、F輪,甚至併購的不同企業發展階段。輝達企業發展部投資項目階段分佈,圖源:睿獸分析這些投資大多圍繞著AI產業鏈的上中下游,囊獲了AI算力、大模型和AI應用的全AI產業鏈。並且,這些投資大多發生在美國本土,偶有投資歐洲、以色列等其它地區的企業。圖源:睿獸分析輝達投資的三個主體長期以來,輝達做一級市場投資主要由公司旗下的投資部門進行。目前,該部門叫做“企業發展部”,由Vishal Bhagwati領導。Bhagwati曾在麻省理工學院就讀,獲得了電腦科學碩士學位,此外他還在沃頓商學院獲得了MBA學位。他在2000年左右成立了一家名為Emadison的公司,並獲得了紅杉資本的投資,這家公司而後被賣給了CAM Systems。Vishal Bhagwati與黃仁勳此後,他還在HP和Oracle擔任戰略投資和併購交易的高管,在HP期間,他曾推動超過280億美元的併購交易。2020年後,他跳槽至輝達,擔任負責戰略與投資的高管。在他的領導下,輝達開啟了“買買買”模式,尤其在2022年之後:2021~2022年,平均每年進行了15次投資,到了2023~2025年,它的年平均投資數量為40起左右,將近是之前的3倍。Bhagwati曾表示,投資事件的數量上升並非事先計畫如此,隨著AI爆發式發展,輝達要緊緊盯住最前沿的動態,投資頻次自然而然增加了。它的投資理念也並非追求傳統VC追求的財務回報,而追求通過投資來強化輝達的生態體系。Bhagwati曾提到,我們不會投資一家不用我們技術及產品的公司。然而大規模投資創業公司,也會被輿論認為有企圖壟斷的嫌疑。有人懷疑它做股權投資,是將投資和使用其產品進行繫結,儘管官方否認了這一觀點。除了Bhagwati領導的戰略投資部門,Sid Siddeek所領導的NVenture是輝達進行一級市場投資的另一股重要力量。和Bhagwati所領導部門不同的是,NVenture更加注重投資帶來的財務回報,而非只關注投資標的和輝達之間的業務協同。Siddeek曾表示,NVenture的投資範圍非常廣泛,不僅出錢,還出專業知識、技術等。在挖掘潛在投資機會時候,Siddeek會關注創業團隊的構成、背景及經驗水平等。此外,他也關注創業公司所處賽道的未來潛力,以及其產品在未來5~10年的競爭力。可見,NVenture更偏向於風險投資機構追求財務回報的邏輯。Siddeek擁有豐富的投資經驗,曾在中東主權財富基金穆巴達拉工作了9年,此後領導過迪拜主權財富基金在科技領域的投資。在加入輝達之前,他曾在軟銀願景基金工作過兩年。而在20年前,他曾擔任過輝達的投資者關係經理兩年,那時的輝達還是一家圖形顯示卡公司,融資曾屢屢碰壁。2021年,Siddeek重新加入輝達,負責NVenture的投資工作。巧合的是,NVenture也在2021年成立。成立之後,NVenture的投資節奏逐漸加快,從2023年的14次左右,提升至2024年的20次。2025年截至目前,NVenture已參與了14項投資。圖源:睿獸分析除了上述兩個投資主體,輝達還設立了一個孵化機構,Inception。該孵化器已累計服務了成千上萬家初創公司,為它們提供AI算力硬體和輝達合作夥伴的雲服務優惠。雖然這三個主體在投資理念、方式等方面存在顯著差異,但是它們的最終目的都是一致的:做大做強輝達的產業生態。輝達投出了20只獨角獸近兩年,相比於矽谷的其他巨頭,輝達投資數量驚人。睿獸分析顯示,亞馬遜、微軟的戰投部門在2024年僅僅出手10次左右,而輝達的企業發展部在同年出手了45次。高頻投資也帶來較好的業績回報。現在,包括輝達企業發展部和NVentures在內,輝達一共投出了20只獨角獸。此外,對於已經成為獨角獸的公司,比如OpenAI和xAI,輝達也參與了其後續融資。總體而言,輝達的投資組合中站著大約40只獨角獸。從投後估值達到獨角獸水平的方面看,輝達企業發展部的業績大大超過了NVentures。2019年至今,企業發展部投出了17家獨角獸,並且輝達投資它們的時間多發生在2023年及之後。這17家獨角獸大多涉及AI大模型層和AI應用層的業務,他們依賴輝達的GPU及相關技術來開展業務。You.com: 輝達於2024年參投了You.com的5000萬美元B輪融資,等到You.com在今年完成了C輪融資後,該公司估值達15億美元,躋身獨角獸行列。目前,You.com面向企業端提供AI深度搜尋和研究服務,宣稱可將傳統諮詢行業耗時數周的戰略諮詢報告,以最快5分鐘的時間來完成。創始人Richard Socher在最新一輪融資完成後,就表示融資目的之一,就是購買更多輝達的GPU,以支援擴大的業務規模的算力需求。Reka AI:該公司於今年7月官宣了由輝達和Snowflakes共同投資的1.1億美元A+輪。這輪投資之後,Reka Ai成為10億美元獨角獸。它專注於AI大模型研發,不過和矽谷大部分堆參數的AI大模型不同,它嘗試有效控制計算成本,以更低成本開發出市場領先的AI大模型,類似於國內深度求索研發的DeepSeek。對於本次融資,輝達並未發表直接評論,不過有業內評論稱,Reka AI將在輝達GPU基礎上來最佳化AI推理的效率。Weka.io:該公司成立於2014年,目前聚焦於研發解決資料密集型的工作負載的儲存解決方案,解決傳統資料存取的性能瓶頸。2019年之後,輝達連續四次投資了這家公司。2024年,這家公司估值達到16億美元。Weka.io已和輝達在硬體、軟體等方面開展緊密合作,比如Weka的技術可最佳化輝達GPU伺服器的儲存性能。FigureAI:這是一家矽谷炙手可熱的人形機器人本體公司,堪位元斯拉的柯博文。在去年,官宣了6.75億美元的B輪融資,投資方包括輝達、三星、微軟、亞馬遜、英特爾等。目前,公司估值20億美元。Figure AI的最新產品Figure 02採用了輝達的GPU作為核心處理器,同時其用於人形機器人的AI大模型,也在輝達GPU上進行訓練。Imbue:2023年,這家專注於AI Agent領域的初創公司獲得一筆2億美元的B輪資金。該公司由一位華人女科學家創立,目標打造千億參數的AI智能體。該公司在獲得輝達投資前,已手握1萬張H100卡。Inflection AI:2023年,Inflection AI獲得了一筆引人注目的投資,投資方包括Bill Gates、Google、輝達等,金額13億美元。核心創始團隊來自GoogleDeepmind核心團隊,致力於開發更具有情商的AI大模型,目標是電影《Her》中那樣的AI,企圖和OpenAI展開競爭。當時,該公司已經建有2.2萬張輝達H100的AI智算叢集,為當時規模最大的之一。不過,2024年微軟出價6.5億美元,收購該公司的核心資產,核心創始人員隨即加入微軟,而公司目標市場也從個人消費市場轉向了企業級市場。除了上述公司外,Bhagwati帶領的企業發展部投出了多家AI大模型的獨角獸,包括AI21 labs、Mistal AI、Cohere等。同時,它還投出了多家垂直領域的AI智能體獨角獸,例如做AI程式設計的Poolside、AI醫療的Hippocratic AI、AI搜尋的Perplexity。輝達旗下的NVenture目前投出了4只獨角獸。除了上述提到的Hippocatic Ai外,還有Field AI、Abridge和Synthesia。Field AI要做具身智能的大腦,它採用了有別於Open AI大語言模型的全新AI架構,該架構更適用於人形機器人的“大腦”。Abridge聚焦於將醫院裡的繁瑣醫療記錄進行AI化處理。該公司估值已達53億美元。Synthesia專注於AI的視訊內容生成,推出的Synthesia 2.0可實現虛擬形象的視訊。該虛擬形象就像主播面對鏡頭的口播場景一樣,可根據上下文調整語氣、面部表情和肢體語言。這三家公司均直接或間接使用了輝達GPU產品。比如Field AI的大模型產品採用了輝達工具鏈及GPU進行訓練,而Synthesia運行在亞馬遜雲之上,而亞馬遜雲大量採購了輝達的GPU。建構未來10年的輝達產業生態早在2000年就開始做投資併購的黃仁勳,是一位具備敏銳技術嗅覺的投資併購高手。未盡研究創始人周健工認為,黃仁勳在2000年初併購競爭對手3dfx,建構了它在圖形渲染顯示卡的統治地位;2019年,黃仁勳又以69億美元,併購了Mellanox,使得輝達從GPU產品提供商向著AI智算中心整體方案提供商,邁出了重要一步。這兩起併購較大程度上分別奠定了,輝達在圖形顯示卡行業和AI算力行業的統治地位。輝達還曾計畫收購Arm,黃仁勳企圖通過這次收購,構築橫跨CPU和GPU的競爭護城河,不過最後卻因為反壟斷原因而終止。當下,黃仁勳並沒有停止投資,而是指揮著Bhagwati領導的企業發展部和Siddeek負責的NVenture進行投資。每一筆潛在投資的最後決議,都需要黃仁勳親自簽署。黃仁勳正計畫通過這一筆筆投資,構築未來10年的統治地位。近3年來,輝達的投資領域正逐漸發生著改變,它正在從投資AI大模型,投資AI基礎設施,慢慢轉向能源、具身智能等領域。不過,輝達仍然基本圍繞著生成式AI的三大要素:算力、資料、模型,進行投資。在算力方面,它圍繞著如何將GPU算力發揮得更好,投資了一系列半導體公司,比如Arrcus和Ayar labs。此外,在算力中心的可持續能源供給方面,它投資了Utilidata、Commonwealth Fusion等。近日,它還宣佈投資量子計算公司PsiQuantum,這家公司表示,它正與輝達進行合作,重點將量子硬體與AI晶片做整合,並聯合開發可跑在GPU上的量子演算法。在資料方面,輝達參與投資了資料庫管理公司Databricks、資料標註公司Scale AI等。在AI大模型方面,輝達已投資了眾多AI模型公司,其中包括Open AI、xAI等。此外,他連續4次投資了面向企業端的AI大模型Cohere,以及OpenAI的前聯合創始人IIya的SSI。SSI致力於研發更安全的人工智慧,僅僅成立一年,估值已達到320億美元。從另一角度看,輝達的投資旨在構築未來5~10年統一的、一站式的AI基礎設施。2025年3月,輝達的GTC大會上,黃仁勳提出了AI工廠(AI Factory)的概念,這一概念旨在將AI開發和工業流程相結合,涵蓋從資料採集、訓練、微調、大規模推理的整個AI工作流程,讓AI工廠能夠產生肉眼可見的價值。AI工廠的初期客戶包括了Uber、Google、Netflix等。“AI工廠的底層為輝達GPU,在此之上還需各類的連接、通訊、能源、資料、模型等技術,這些技術的獲得與合作將通過風險投資方式。”周健工表示:“黃仁勳還投資了AI工廠的下游應用場景,比如具身智能、自動駕駛、AI製藥等。”投資下游應用場景的公司,可助力AI工廠可被下游AI應用所廣泛使用。硬體永遠為軟體服務的,人們希望AI晶片能夠支撐起通用人工智慧(AGI)的實現。AGI何時到來,有人說2027年,有人說2030年之後。不論何時到來,在它到來前,又或者真正的AI killer APP出現前,必須要有足夠好的軟硬體技術及產品的支撐。華泰證券電腦首席分析師謝春生曾表示,AI正在改造所有的既存IT系統,原來軟體演算法會被AI演算法重寫,原來硬體架構將被顛覆,CPU和GPU的數量比例,會從大約8比2,變成大約2比8,其中伴隨著大量軟硬體架構、技術、產品、生態的重構。毫無疑問的是,輝達已是這場AI改造IT系統革命的中堅力量。根據輝達最新發佈的年報,在其資產負債表上,輝達所投資的長期股權價值已從2024財年的13億美元上升至2025財年的34億美元。這些投資組合的價值在一年時間增長了近3倍。投資創業公司,就是投資未來。輝達在這些投資的價值會遠遠超越當前財報所呈現的價值。 (創業邦)
騰訊一口氣開源4款模型!手機就能跑,還增強了agent能力
騰訊混元小模型全家桶開源:4款齊發,單卡部署,微信讀書、會議已用上。智東西8月4日報導,今天,騰訊混元一口氣開源4款小尺寸模型,參數分別為0.5B、1.8B、4B、7B,消費級顯示卡即可運行。在性能上,Hunyuan 7B在不僅在數學能力上超越了OpenAI o1-mini和Qwen3-8B,在除IFEVal榜單外,均超越OpenAI o1-mini。模型原生上下文256k,可以一次讀完3本《哈利波特》。目前已在微信讀書、騰訊會議等多個騰訊應用中落地。這4款小尺寸模型單卡就可以部署,適用於筆記型電腦、手機、智能座艙、智能家居等低功耗場景,且支援垂直領域低成本微調。目前,4個模型均在Github和Hugging Face等開源社區上線,Arm、高通、Intel、聯發科技等多個消費級終端晶片平台也都宣佈支援部署。01.數學能力超越Qwen3-8B能一口氣讀3本《哈利波特》騰訊新開放原始碼的4個模型屬於融合推理模型,並且具備快思考和慢思考兩種模式。其中快思考模式提供簡潔、高效的輸出;而慢思考涉及解決複雜問題,具備更全面的推理步驟。效果上,4個模型均實現了跟業界同尺寸模型的對標,其中Hunyuan 7B在數學推理測試DROP上取得85.9分的成績,在AIME2024和AIME2025兩個數學榜單上得分分別為81.1分和75.3分,均排名第一,超過OpenAI o1-mini和Qwen3-8B。對比Hunyuan 0.5B、1.8B和4B,在推理能力BBH測評中,1.8B的模型的成績只與4B的成績相差0.9分,推理能力不相上下。這四個模型的亮點在於agent和長文能力,跟此前開放原始碼的Hunyuan-A13B模型一樣,騰訊團隊在技術上通過資料建構和強化學習獎勵訊號設計,提升了模型在任務規劃、工具呼叫和複雜決策以及反思等agent能力上的表現,讓模型實際應用中可以更好地完成深度搜尋、Excel操作、旅行攻略規劃等任務。此外,模型原生長上下文窗口達到了256k,意味著模型可以一次性記住並處理相當於40萬中文漢字或50萬英文單詞的超長內容,相當於一口氣讀完3本《哈利波特》,並且能記住所有人物關係、劇情細節,還能根據這些內容討論後續故事發展。部署上,4個模型均只需單卡即可部署,部分PC、手機、平板等裝置可直接接入。並且,模型具有較強的開放性,主流推理框架(例如,SGLang,vLLM and TensorRT-LLM)和多種量化格式均能夠支援。02.已應用到微信讀書智能座艙和金融AI助手等應用層面,這4款小尺寸模型都能夠滿足從端側到雲端、從通用到專業的多樣化需求,並且已經在騰訊多個業務中應用。例如,依託模型原生的超長上下文能力,騰訊會議AI小助手、微信讀書AI問書AI助手均實現對完整會議內容、整本書籍的一次性理解和處理。在端側應用上,騰訊手機管家利用小尺寸模型提升垃圾簡訊識別精準率,實現毫秒級攔截,保護使用者隱私;騰訊智能座艙助手通過雙模型協作架構解決車載環境痛點,充分發揮模型低功耗、高效推理的特性。在高並行場景中,搜狗輸入法基於模型的多模態聯合訓練機制使嘈雜環境下提升識別精準率;騰訊地圖採用多模型架構,利用意圖分類和推理能力提升了使用者互動體驗;微信輸入法「問AI」基於模型實現輸入框與AI即問即答的無縫銜接。在垂直行業應用中,金融AI助手通過Prompt最佳化和少量資料微調實現超95%意圖識別精準率。依託模型的理解能力,騰訊遊戲翻譯和QQ飛車手游NPC,在多語言理解能力、方言翻譯和智能對話方面,有明顯最佳化,這些能力在專業客服、內容出海以及電商直播等場景有較大應用潛力。03.騰訊開源活躍覆蓋多模態最近,全球開源領域異常熱鬧,中國大模型表現搶眼。騰訊混元大語言模型也在持續推進開源,其開源模型已覆蓋文字、圖像、視訊和3D生成等多個模態。在大語言模型領域,騰訊混元此前陸續開源了啟動參數量達52B的Hunyuan large和混合推理MoE(混合專家)模型Hunyuan-A13B,這些模型憑藉架構上的創新以及在性能和效果上的不錯表現,在開源社區受到廣泛關注。多模態方面,混元還開放了完整多模態生成能力及工具集外掛,陸續開源了文生圖、視訊生成和3D生成能力,提供接近商業模型性能的開源基座,方便社區基於業務和使用場景定製,圖像、視訊衍生模型數量達到3000個。上周,騰訊發佈並開源混元3D世界模型1.0,這一模型一經發佈即迅速登上Hugging Face趨勢榜第二,下載量飆到近9k,混元3D世界模型技術報告還拿下了Hugging Face論文熱榜第一。04.結語:騰訊開源、應用兩手抓當前全球AI開源生態持續升溫,各大科技公司都在加碼模型開源,騰訊此次動作是其開源戰略的延續。騰訊混元此次開源4款小尺寸模型,覆蓋了從0.5B到7B的參數範圍,為不同算力需求的場景提供了適配方案,為AI開發者社區提供了更多選擇。 (智東西)
輝達GB200散熱難題得到攻克,供應鏈加速衝刺,GB300蓄勢待發
輝達首席執行官黃仁勳在近期台北國際電腦展上確認,Grace Blackwell架構(GB200)已全面量產。他特別感謝台灣供應鏈廠商在建構AI生態系統中的貢獻,並預告第三季度將推出性能更強的GB300。此前GB200組裝散熱問題已得到有效解決,這為其大規模出貨奠定了基礎。01 GB200散熱問題得到解決GB200 NVL72系統全面引入了機架規模的直接晶片液冷方案,通過冷卻液直接高效帶走GPU和CPU等核心元件產生的巨大熱量,突破了傳統風冷限制。同時,系統支援液對空和液對液等多種散熱模式,以適應不同資料中心環境並高效管理其高功率密度。據知情人士透露,此前曾出現連接性問題及液冷系統漏液等技術挑戰,但通過供應鏈與輝達的緊密協作,這些問題已在兩到三個月前得到解決,並加強了出貨前的測試流程。供應鏈廠商如雙鴻和奇鋐在散熱部件方面的協同合作亦是關鍵。02 核心供應鏈夥伴:從晶片到整機加速出貨GB200供應鏈涵蓋了AI伺服器生產的各個關鍵環節。晶片製造由台積電(2330)保障,提供核心算力單元;伺服器的組裝則主要由富士康和廣達兩大巨頭承擔,同時,英業達(2356)和緯創(3231)等合作夥伴也已在加快生產和出貨。其他關鍵供應商包括:散熱方案的雙鴻、奇鋐;機殼廠商勤誠;電源廠商台達電子與光寶;連接線的貿聯、佳必琪;以及伺服器導軌的川湖、南俊國際等。這一完整且高效的產業鏈協同,是GB200能夠迅速解決技術難題並實現大規模量產的基礎。富士康董事長劉揚偉表示,經過半年多資料積累,GB200良率已達批次生產標準,未來幾季度出貨無憂。富士康4月營收達6413.6億元新台幣,創歷年最強4月表現,環比增長16.1%,同比增長25.5%,直接反映了GB200的大規模出貨。前四個月累計營收2.28兆元新台幣,創同期新高,同比增長24.5%。廣達執行副總裁兼雲達總經理楊麒令透露,GB200已於3月開始出貨,第二季度進入放量階段,預計今年業績將逐季增長,下半年優於上半年。摩根士丹利證券預估,4月GB200機櫃出貨量達1500台,富士康出貨約1000台,廣達從3月的150台攀升至300-400台,顯示其產能和市場參與度正同步擴大。03 GB300蓄勢待發 高性能AI計算持續演進輝達正積極為下一代GB300 AI伺服器機櫃的推出做準備,這款系統具備更強大的記憶體功能,專為處理更複雜的推理模型而設計,黃仁勳已宣佈GB300將於第三季度上市。為加快部署,輝達在GB300設計上做出調整,暫時回歸目前GB200所使用的“Bianca”設計,而非原計畫的“Cordelia”,這有助於Blackwell系列產品加速推出,從而抵消此前因對華出口限制帶來的影響。儘管如此,輝達並未放棄Cordelia設計,並計畫在未來的AI晶片中採用重新設計的Cordelia板,該設計將允許獨立更換GPU,提升維護便利性。 (熱控大家說)
華為昇騰910D晶片:中外AI晶片橫縱對比,從技術封鎖到生態突圍
提醒:更新下載,已領請忽略!《伺服器基礎知識全解終極版(第二版)》(含PPT和PDF)完成更新,請購買過“伺服器基礎知識全解(終極版)”和“架構師技術全店資料打包彙總(全)”的讀者,請在微店留言獲免費取更新。伺服器基礎知識全解終極版(第二版)(共227頁),內容圖文並茂,由淺入深,介紹全面,是世面罕見的伺服器學習資料,內包括伺服器基礎知識、CPU、記憶體、GPU、硬碟、智能網路卡等9個章節。本次主要更新內容:1、CPU更新(Intel/AMD架構演進,國產CPU架構)2、GPU更新(輝達GPU架構,從Fermi到Hopper,Rubin Ultra)3、記憶體技術、操作系統、儲存技術等更新4、已知問題修正5、更新內容40+頁PPT——————  正文開始  ——————在人工智慧晶片領域,華為昇騰910D晶片的問世備受矚目。作為昇騰系列的新成員,昇騰910D在技術和參數方面展現出諸多獨特優勢,無論是與910其他規格晶片橫向對比,還是與國產同類晶片以及國外主流產品較量,都有著可圈可點之處 。一、昇騰910D對比910晶片的優勢(一)架構與計算能力升級昇騰910D採用了最佳化後的自研架構,相比早期的昇騰910B,在架構層面進行了深度改良。例如,通過精簡約30%的冗餘電路 ,讓晶片的運算效率大幅提升,半精度算力達到320 TFLOPS。而昇騰910B的半精度算力遠低於這一數值,使得昇騰910D在處理大規模矩陣運算、複雜神經網路模型訓練時,能夠更加高效快速地完成任務。(二)先進的散熱與功耗管理昇騰910D搭載了先進的液冷散熱技術,支援晶片在45℃高溫下仍能全速運行,功耗卻僅為350W。反觀昇騰910C,可能在散熱技術上相對傳統,導致其在高負載執行階段溫度升高,影響晶片性能發揮,且功耗較高。(三)叢集互聯性能提升昇騰910D每秒能搬運4TB資料,實現晶片間的高速通訊,使得多晶片並聯組成的叢集算力密度提升5倍 。相比之下,昇騰910其他規格晶片在叢集協作時,資料傳輸速度和協同效率較低。這種強大的叢集互聯性能,讓昇騰910D在支撐大型AI叢集運算,如文心一言這樣的大語言模型訓練時,能顯著縮短訓練周期,提高模型迭代速度。二、昇騰910D對比國產同類晶片分析1、寒武紀思元370算力:思元370最大算力高達256TOPS(INT8)。昇騰910D目標性能參數對標NVIDIA H100的2000 BF16 TFLOPS,在半精度算力上優於思元370。晶片架構:思元370採用MLUarch03架構,昇騰910D則基於自研昇騰架構。生態系統:寒武紀有自己的軟體生態體系,支援主流深度學習框架。華為昇騰有MindSpore框架,與昇騰晶片深度繫結。2、燧原科技雲燧T10算力與應用場景:雲燧T10適用於雲端推理場景,提供低延遲、高能效的推理服務。昇騰910D專注於大模型訓練與高效推理場景,在大規模資料處理和複雜模型訓練方面更具優勢。硬體架構:燧原科技有自己獨特的晶片架構設計,而昇騰910D採用多晶片整合(chiplet)技術,通過最佳化計算單元和互聯架構提升性能。生態系統:燧原科技建構了配套的軟體系統,昇騰910D所在的昇騰系列也有更廣泛的合作生態。3、崑崙芯AI加速卡R200算力性能:崑崙芯AI加速卡R200基於崑崙芯2代AI晶片,專為深度學習、機器學習演算法的雲端和邊緣端計算設計。昇騰910D在算力規模和針對大模型訓練的最佳化上更為突出。生態適配:崑崙芯適用於多種主流框架和演算法模型,昇騰910D僅有MindSpore框架和最佳化,在華為生態及相關合作場景中會有優勢。4、天數智芯天垓100 GPGPU通用計算能力:天垓100 GPGP可適配主流CPU晶片/伺服器廠商,支援國內外主流軟硬體生態和各種深度學習框架等。性能特點:天垓100在通用計算方面表現良好,昇騰910D則在AI大模型訓練和推理的特定性能指標上有更高的追求。5、摩爾執行緒MTT S4000性能與功耗:單張MTT S4000性能不到昇騰910B的1/3,功耗還更高。昇騰910D在性能和能效比上相對更優。應用場景與生態:MTT S4000主要用於摩爾執行緒智算中心全端解決方案,支援CUDA零成本轉譯。昇騰910D依託華為生態,在智能駕駛、醫療影像分析等領域有深入應用。6、壁仞科技BR106B/BR106C功耗與性能:BR106B峰值功耗300W,BR106C峰值功耗150W。昇騰910D通過先進封裝與液冷散熱技術,在高算力下的功耗控制更優,且性能目標更高。技術特點:壁仞科技基於自研的Blink技術,實現卡間高速互聯。昇騰910D也在叢集互聯能力上有大幅提升,每秒能搬運4TB資料,實現晶片間的高速通訊。7、阿里平頭哥倚天710應用場景:倚天710採用5nm工藝,主要用於阿里雲資料中心,是業界性能最強的ARM伺服器晶片。昇騰910D專注於AI領域的大模型訓練與推理,應用場景更聚焦。晶片功能:倚天710在伺服器計算方面有優勢,昇騰910D在AI計算的專業能力上更為突出,擁有專為AI演算法最佳化的架構和計算單元。8、海光K100 AI版算力精度:海光K100 AI版在FP32模式下峰值算力為49T,在BF16/FP16模式下峰值算力為192T。昇騰910D的半精度算力目標對標NVIDIA H100,高於海光K100 AI版。生態系統:海光DCU的DTK軟體棧相容CUDA等生態,昇騰910D有MindSpore框架及相關最佳化生態,兩者在生態建設上各有特點。三、昇騰910D對比國外主流產品的優勢(一)性能參數優勢以輝達H100為例,昇騰910D在多個性能參數上實現超越。昇騰910D半精度算力達320 TFLOPS,較H100的256 TFLOPS提升25% ;功耗僅350W,較H100的700W降低50% 。在叢集方案上,昇騰910D通過5塊晶片並聯形成“超級電腦”,算力密度提升5倍,在文心一言訓練中縮短周期27% ,自動駕駛模型迭代速度提升1.8倍 ,展現出強大的計算實力和高效的運算能力,打破了國外主流產品在性能上的領先局面。(二)成本優勢昇騰910D在成本方面具備顯著優勢,其單價約14.5萬元,較輝達H100的24萬元降低40% 。此外,昇騰910D採用的液冷系統採購成本較傳統風冷降低20% 。對於大規模採購晶片用於資料中心建設和AI業務開展的企業來說,昇騰910D能夠在保證高性能的同時,大幅降低硬體採購成本和後期營運成本,提高企業的經濟效益,增強市場競爭力。(三)本土最佳化與適應性昇騰910D針對中文NLP任務進行了專門最佳化,文言文翻譯精準率比H100高12% 。在國內的應用環境中,對中文語言處理的最佳化使昇騰910D更貼合本土企業和使用者的需求,在處理中文文字相關的AI任務,如智能客服、文字生成、語言翻譯等方面,能夠提供更精準高效的服務。同時,在面對國內複雜的網路環境和資料安全要求時,昇騰910D基於國內供應鏈和技術體系,能更好地滿足資料安全和本地化部署的需求。(四)910D與國外AI晶片能力對比1、輝達H100算力:輝達H100的BF16算力約為2000 TFLOPS。昇騰910D目標性能參數對標輝達H100的2000 BF16 TFLOPS,從單晶片性能來看可能落後於輝達的Blackwell B200和Blackwell Ultra B300 GPU,但華為通過CloudMatrix 384超節點技術,可讓昇騰910D在與基於輝達當前Blackwell及未來Rubin架構GPU的計算單元競爭中佔據一席之地。晶片架構:H100基於Hopper架構,在大規模平行計算和深度學習方面有優勢。昇騰910D採用多晶片整合(chiplet)技術,通過最佳化計算單元和互聯架構,減少訊號傳輸延遲。生態系統:輝達的CUDA生態已經統治了全球90%的AI開發者,生態系統成熟且完善。華為的昇騰生態仍在建構之中,不過華為聯合DeepSeek等開源大模型企業,通過演算法最佳化降低對硬體製程的依賴,並且昇思MindSpore框架也在不斷髮展完善。2、輝達A100算力:A100的性能在當時也是非常強大的,適用於大規模AI訓練與推理,但具體算力指標與昇騰910D的目標對標H100的2000 BF16 TFLOPS有所不同。晶片架構:基於Ampere架構,在深度學習演算法上有最佳化。昇騰910D的架構則是針對大模型訓練與高效推理場景進行了專門設計,採用多層堆疊封裝技術等以提升能效比。生態系統:同樣依託CUDA生態,軟體支援和開發者社區龐大。昇騰910D所在的昇騰生態在不斷髮展,通過與國內企業和科研機構合作,拓展應用場景和軟體適配。3、AMD Instinct MI300系列算力與架構:首款CPU+GPU異構晶片,專為生成式AI和高性能計算最佳化,在HBM視訊記憶體容量等方面有優勢。昇騰910D專注於AI領域的大模型訓練與推理,採用自研昇騰架構,通過最佳化計算單元和互聯架構提升性能。生態系統:AMD不斷完善其軟體生態,以挑戰輝達在資料中心市場的地位。昇騰910D有昇思MindSpore框架及相關最佳化生態,在國內資料中心等場景的部署有一定優勢。4、英特爾Habana Gaudi2算力:針對AI訓練的ASIC晶片,對標輝達A100,在深度學習訓練任務上有不錯的表現。昇騰910D目標對標輝達H100,在算力規模和性能最佳化方向上有所不同。架構特點:採用獨特的架構設計,最佳化了AI訓練中的計算流程。昇騰910D採用多晶片整合和多層堆疊封裝技術,結合液冷散熱系統,提升能效比和穩定性。生態系統:英特爾建構了相應的軟體生態來支援晶片的應用。昇騰910D所在的昇騰生態通過與國內企業合作,在智能駕駛、醫療影像分析等領域有深入應用。5、GoogleTPU v4算力與應用:專用ASIC晶片,擅長大規模矩陣運算,主要支撐Google Cloud AI服務。昇騰910D面向大模型訓練與高效推理場景,在中國的三大電信營運商、網際網路頭部企業的資料中心有規模化部署。架構特性:採用專門的架構來加速矩陣運算和深度學習演算法。昇騰910D基於自研昇騰架構,通過最佳化計算單元和互聯架構,實現高性能和低延遲。6、Cerebras Systems Wafer Scale Engine(WSE-3)算力:基於整片晶圓的超大晶片,算力達百億億次等級,專攻大模型訓練。昇騰910D目標性能對標輝達H100,通過多晶片整合和最佳化架構來提升算力。架構與應用:其架構專為大模型訓練設計,有獨特的計算單元和互聯方式。昇騰910D通過CloudMatrix 384超節點技術等,建構大規模計算單元,適用於大模型訓練和多種AI應用場景。7、Graphcore Bow IPU架構特點:採用3D封裝技術,專為大規模平行計算設計,適合推薦系統與NLP任務。昇騰910D採用多層堆疊封裝技術,最佳化計算單元和互聯架構,適用於大模型訓練和推理等多種AI場景。生態與應用:在歐洲及一些特定領域有應用,建構了相應的軟體生態。昇騰910D在中國市場有廣泛應用,通過昇思MindSpore框架和生態合作,在智能駕駛、醫療影像分析等領域有優勢。8、Tenstorrent Grayskull/Elden架構特性:基於RISC - V架構的可擴展AI晶片,支援動態資料流處理。昇騰910D基於自研昇騰架構,採用多晶片整合和最佳化的互聯架構,以滿足大模型訓練和推理的高性能需求。應用場景:在一些AI應用場景中提供計算支援。昇騰910D專注於大模型訓練與高效推理,在中國的資料中心、智能駕駛等領域有明確的應用方向和優勢。華為昇騰910D晶片憑藉在技術優勢,在AI晶片領域嶄露頭角。無論是與同系列晶片對比,還是在國產同類晶片以及國外主流產品的競爭中,都有望推動中國乃至全球AI產業的發展與變革。 (架構師技術聯盟)